**I758 Wissens- und KI-basierte Systeme**

# Demo - Methode der kleinsten Quadrate
(c) Christina Kratsch


## Einen Datensatz einlesen

Skitit learn bietet viele Demonstrations-Datensätze, die wir zum "spielen" verwenden können. Laden wir uns den Diabetes-Datensatz. Damit wir im menschenfreundlichen 2-dimensionalen Raum plotten können, nutzen wir nur eine Spalte aus dem Datensatz.

In [None]:

import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

TEST_SIZE = 100


# Load the diabetes dataset
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# Use only one feature
diabetes_X = diabetes_X[:, np.newaxis, 2]

diabetes_X.shape

# Den Datensatz aufteilen

Wir wollen ein einfaches KI-Modell lernen, die **Lineare Regression**. Dafür teilen wir den Datensatz in Test- und Trainingsdaten:

In [37]:
# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-TEST_SIZE]
diabetes_X_test = diabetes_X[-TEST_SIZE:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes_y[:-TEST_SIZE]
diabetes_y_test = diabetes_y[-TEST_SIZE:]

## Das Modell lernen

Lineare Regression mit Scikit Learn ist recht einfach gemacht - wir trainieren das Modell auf den Trainingsdaten und lassen uns anschließend die Modell-Parameter ausgeben:

In [None]:
# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# The coefficients
print("Coefficient: \n", regr.coef_)
print("intercept: \n", regr.intercept_)


Wir haben also ein Lineares Modell für eine Dimension (= eine Linie, Gerade) mit Anstieg und Intercept gelernt. In den Trainingsdaten geplottet sieht diese Linie so aus:

In [None]:
plt.scatter(diabetes_X_train, diabetes_y_train, color="black")

def abline(slope, intercept):
    axes = plt.gca()
    x_vals = np.array(axes.get_xlim())
    y_vals = intercept + slope * x_vals
    plt.plot(x_vals, y_vals, '--', color="red")

abline(slope=regr.coef_, intercept=regr.intercept_)

## Das Modell auf den Test-Daten anwenden

Jetzt nutzen wir das Modell, um "neue" Daten, die das Modell noch nie gesehen hat (`diabetes_X_test`), mit dem Modell zu bewerten. Das Modell schreibt seine Vorhersage in `y_pred`. Um die Qualität des Modells bewerten zu können, können wir die wahren Antworten in `diabetes_y_test` verwenden:

In [40]:
# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

Zum Schluss plotten wir das Ergebnis und inspizieren die Abweichungen im Plot.

In [None]:
# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test, color="black")
plt.plot(diabetes_X_test, diabetes_y_pred, color="blue", linewidth=3)

plt.show()

Zum Schluss die entscheidende Frage: ist unser Modell ein gutes Modell? Woran sehen wir das? Wie können wir das messen? Vielleicht helfen die Formel unten bei der Frage.

In [None]:
# The mean squared error
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# The coefficient of determination: 1 is perfect prediction
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))


print ("Sample mean", np.mean(diabetes_y_test))