<img src="../img/htw-logo.png" width=150>


**I758 Wissens- und KI-basierte Systeme**

# Entscheidungsbäume
Quelle: KI Campus / Anpassungen CK

<font color="green"><b>KLAUSURTAUGLICH.</b></font>
Dieses Notebook gehört zu den fünf Notebooks, die Sie für die Klausur einreichen können. Bei vollständiger und korrekter Bearbeitung **erhalten Sie Punkte für die Abgabe, die zu Ihrer Klausur addiert werden.**

### CRISP-DM <a name="kap0"></a>

In diesem Jupyter Notebook soll zunächst der Ablauf eines typischen Projektes in Data Mining an einem kleinen Beispiel demonstriert werden. Dabei werden die typischen Schritte eines solchen Projektes analog zum CRISP-DM Modell durchgeführt und kurz erläutert, um einen Überblick zu geben und anschließend durchgeführt. Detaillierte Erläuterungen zu den einzelnen Schritte folgen in den späteren Modulen. 
Der erste Schritt in einem Data Mining Projekt ist die genaue Formulierung der Aufgabe. In allgemeinen Anwendungen wird eine Geschäftsidee formuliert oder ein Problem einer Fachabteilung vorgetragen. Diese sollten mit Hilfe von Daten lösbar sein.  
In Industrieanwendungen wird dieser Schritt oft von interdisziplinären Arbeitsgruppen, bestehend aus der Fachabteilung und der Data Science-Abteilung, entwickelt.  

Wir analysieren den bekannten öffentlichen Titanic-Datensatz, ein beliebter Datensatz für Einsteiger-Analysen. Die Einträge in den Daten beschreiben Passagiere, und eine wichtige Variable (Eigenschaft) ist ihr Überleben, nämlich 'überlebt' bzw. 'nicht überlebt'.

Damit wollen wir eine besondere KI, ein sogenanntes Klassifikationsmodell, lernen. In späteren Modulen des Kurses werden weitere Arten von Vorhersagemodellen thematisiert. Bei anderen Arten von Vorhersagemodellen sehen einzelne Ausgestaltungen der CRISP-DM Arbeitsbereiche unterschiedlich aus, die allgemeine Bedeutung der einzelnen Arbeitsbereiche bleibt aber gleich. 

Der Plan zur Erstellung des Modells ist, anhand der üblichen Schritte im CRISP-DM die Datengrundlage zu erforschen und dann Merkmale und einen Ansatz für eine Modellierung auszuwählen, sowie die Modellierung im Nachhinein bezüglich bestimmter Merkmale zu beurteilen und ggf. zu optimieren. 

###  Datenverständnis (Data Understanding) <a name="kap2"></a>

Ausgangspunkt für die Bearbeitung eines Data Mining Projekts sind selbstverständlich unterschiedliche Daten. In vielen Anwendungen, gerade im industriellen Kontext, ist es aufwändig, die passenden Daten zu finden und sie eventuell aus mehreren Quellen zusammen zu führen. 

Für das hier thematisierte Beispiel werden Informationen über die allgemeinen Merkmale der Reisenden und über die Frage, ob sie überlebt haben oder nicht, benötigt. 

Der Datensatz wird nun zunächst genauer betrachtet, um zu verstehen, welche Informationen zur Verfügung stehen.

Zu Beginn des Notebooks werden die grundlegenden Bibliotheken eingebunden, die in fast jedem Data Mining Projekt genutzt werden.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Der Datensatz wird nun zunächst mit `pd.read_csv()` eingelesen, da er im csv-Format vorliegt. Anschließend wird er für eine erste Übersicht ausgegeben um zu überprüfen, ob die Datei richtig eingelesen wurde. 

In [None]:
csv_path = "data/titanic.csv"
df = pd.read_csv(csv_path)  
df

Die Daten von 890 Reisenden wurden eingelesen und liefern folgende Informationen:  
- Die `PassengerId` nummeriert alle Reisenden durch.
- Das Merkmal `Survived` = 'Überlebt' gibt uns an, ob die Reisenden überlebt haben oder nicht. Dabei bedeutet  0 = nicht überlebt, 1 = überlebt.
- `Pclass` steht für die Ticketklasse. Es gab drei Klassen: 1, 2 und 3.
- `Name` enthält die vollständigen Namen der Reisenden.
- `Sex` = 'Geschlecht' gibt an, ob die Reisenden männlich oder weiblich waren.
- `Age` = 'Alter' ist das Alter der Reisenden zu Beginn der Reise.
- `SibSp` = 'Siblings/Spouses' = 'Geschwister/Ehepartner' zeigt an, wie viele Geschwister oder Ehepartner der Reisenden sich mit an Bord befanden.
- `Parch` = 'Parents/Children' = 'Eltern/Kinder' informiert uns darüber, wie viele Elternteile oder Kinder der Reisenden sich mit an Bord befanden.
- `Ticket` gibt die Ticketnummer der Reisenden an.
- `Fare` = 'Fahrpreis' ist der Fahrpreis, der von den Reisenden für die Überfahrt bezahlt wurde.
- `Cabin` = 'Kabine' enthält die Kabinennummer der Reisenden.
- `Embarked` = 'Eingeschifft' gibt den Ort an, an dem die Reisenden zugestiegen sind. Möglich sind C = Cherbourg, Q=Queenstown und S = Southampton.

Eine genaue Betrachtung der Tabelle zeigt, dass nicht alle Felder ausgefüllt sind. Es gibt zum Beispiel in Zeile 0 bei `Cabin` den Eintrag `NaN` = 'Not a number' (keine Zahl). Um Mehr Informationen über den Datensatz zu gewinnen, kann der folgende Befehl eingesetzt werden: 

In [None]:
df.info()

Betrachten Sie die Ausgabe von ````.info()``` genau und beobachten Sie, welche Spalten besonders Problem-anfällig sind.

#### Visualisierung

Die Visualisierung eines Datensatzes auf unterschiedlichen Wegen kann sehr hilfreich sein, um mehr Informationen über den Datensatz zu gewinnen. 

In [None]:
df.hist(figsize=(10,10))
plt.show()

Überlegen Sie: Welche Aussagen können Sie aus den Histogrammen entnehmen? Wieviele Passagiere haben überlebt? Wie viele reisten in welcher Klasse? Wie alt waren die Passagiere im Schnitt? Reisten viele Passagiere alleine? Wie verteilten sich die Ticketpreise?

<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>

Eine Visualisierung des Anteils der Überlebenden zu einem Merkmal, z.B. zur Passagierklasse, könnte erste Hinweise auf ein gutes Modell liefern. Um dies einfach umzusetzen, ist die Bibliothek seaborn und dort der Befehl countplot sehr hilfreich. Schauen Sie in der Dokumentation von searborn nach und versuchen Sie es!

Tipp: Binden Sie die Bibliothek `seaborn` mit dem Kürzel `sns`ein und führen Sie im Anschluss den Befehl `sns.countplot(...)` aus. Eingabeparameter sind für `x` die Passagierklasse, für `hue` die Spalte mit dem Merkmal Überleben und für `data` der Datensatz. <br> Durch Ändern von `x='Pclass'` in ein anderes Merkmal können Sie dies auch für andere Merkmale tun. 
</div>

In [None]:
# Platz für Arbeitsauftrag


Aus dieser Darstellung zeigt sich bereits, dass Reisende der untersten Passagierklasse im Vergleich zu den beiden anderen Passagierklassen zu einem geringeren Anteil überlebt haben.

<div class="alert alert-block alert-warning">
<b>Ergebnissicherung:</b> <br>
    - Der Arbeitsbereich Datenverständnis dient dazu, sich einen Überblick über die vorliegenden Daten zu verschaffen. Dabei sollten die Daten in Hinblick auf ihre Eigenschaften und Qualität und die dadurch ggf. auftretenden Probleme für die Aufgabenstellung analysiert werden.
</div>

### Datenvorbereitung (Data preparation) <a name="kap3"></a>

Bei der Datenvorbereitung wird ein Datensatz so weit vorbereitet, dass er anschließend für die Modellierung genutzt werden kann. Dabei sind viele Aspekte zu beachten:
- Fehlende Daten werden ergänzt.
- Der Datentyp wird überprüft und ggf. geändert.
- Es werden die Merkmale ausgewählt, die Einfluss auf die Zielvariable haben. 
- ...

In [None]:
df.info()

Offenbar ist der Datensatz nicht vollständig. Eine Ergänzung der fehlenden Daten erscheint, gerade bei dem Merkmal `Cabin` aber schwierig. Dieser Punkt wird zunächst zurückgestellt und dann betrachtet, sobald die Merkmale für die spätere Analyse ausgewählt wurden. 

Daten mit numerischem Typ können von Python besser analysiert und verarbeitet werden, deshalb sollen zunächst alle Merkmale vom Typ `object` betrachtet werden, um zu sehen, ob sie in Zahlen umgewandelt werden können: 

- Beim Merkmal Namen ist dies nicht sinnvoll.
- Das Merkmal `Sex` könnten durch `male`='männlich' mit 0 und `female`='weiblich' mit 1 umkodiert werden. 
- Das Merkmal `Ticket` beinhaltet eine unverständliche Buchstaben-Nummern-Kombination und bleibt deswegen unverändert. 
- Das Merkmal `Cabin` enthält nur wenige Daten und ist deswegen uninteressant. 
- Das Merkmal `Embarked` könnte mit Hilfe von Zahlen umkodiert werden, wegen des geringen zu erwartenden Einflusses wird dies zunächst nicht durchgeführt. 

In [None]:
df.loc[df.Sex =='male', 'Sex']=0
df.loc[df.Sex =='female', 'Sex']=1

Die Änderungen werden durch die Betrachtung der Daten überprüft: 

In [None]:
df.head()

In [None]:
df.info()

Das Geschlecht ist immer noch vom Typ `object`. 

<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>
    
Nutzen Sie die Dokumentation von Python oder eine Suchmaschine dazu, herauszufinden, wie sich der Datentyp der Spalte `df['Sex']` in `float` umwandeln lässt. Wenden Sie den passenden Befehl anschließend an. 
    
Tipp: Eine Möglichkeit ist in der Pandas Bibliothek zu finden. 
</div>

In [None]:
# Platz für Arbeitsauftrag

Die nachfolgende Ausgabe zeigt, dass das Vorgehen erfolgreich war. 

In [None]:
df.info()

### 3.1 Aufteilung in Trainings- und Testdatensatz <a name="kap31"></a>

Beim überwachten Lernen wird der Datensatz in Trainings- und Testdatensatz aufgeteilt. Der Testdatensatz soll völlig unabhängig von allen späteren Entscheidungen sein, um damit die Güte der Vorhersage testen können. Daher wird diese Trennung üblicherweise vor der Merkmalsauswahl vorgenommen.

Im folgenden Abschnitt wird der Datensatz aufgeteilt. Die Größe des Testdatensatzsatzes soll 30 % betragen (`test_size=0.3`). Mit `random_state=0` wird sichergestellt, dass immer die gleichen 30% Testdaten ausgewählt werden (die Ergebnisse des Modells fallen sonst bei jeder Durchführung etwas anders aus), `stratify` sorgt dafür, dass nach der Teilung in Trainings- und Testmenge die Verteilung in den beiden Mengen der der Ausgangsmenge entspricht, das bedeutet der Anteil der Überlebenden ist in beiden Mengen gleich. 

An dieser Stelle wird zum ersten Mal die Bibliothek sklearn benutzt. Sie ist die beliebteste Bibliothek für maschinelles Lernen in Python und enthält viele wichtigen Befehle aus diesem Bereich.

In [None]:
from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(df, test_size=0.3, random_state=0, stratify = df['Survived'])
print(train_set)

### 3.2 Erste Merkmalsauswahl <a name="kap32"></a>

Zur Datenvorbereitung gehört die Entscheidung, welche Merkmale für die Modellierung betrachtet werden. So hat beispielsweise der Name der Reisenden offensichtlich keinen Einfluss auf das Überleben.

Bei anderen Merkmalen stellt sich die Frage nach dem Einfluss aber:
- Hat das Alter der Reisenden Einfluss auf ihren Überlebenswillen?
- Haben Reisende mit vielen Angehörigen an Bord sich bemüht, sie zu retten und dabei das eigene Überleben riskiert?
- Hat das Geschlecht Einfluss auf das Überleben? Haben sich Männer zuerst in die Rettungsboote gesetzt oder wurde nach dem Grundsatz "Frauen und Kinder zuerst" gehandelt?

Eine Idee für den Einfluss eines numerischen Merkmals auf ein anderes gibt der Korrelationskoeffizient.
Der Korrelationskoeffizient wird zwischen zwei Merkmalen berechnet und sein Wert liegt immer zwischen -1 und 1. Dabei bedeutet ein Wert nahe 0, dass zwei Merkmale sich gegenseitig nicht beeinflussen. Ein positiver Wert bedeutet, dass bei steigenden Werten des einen Merkmals auch die Werte des anderen Merkmals steigen. Je näher der Korrelationskoeffizient an 1 liegt, desto besser lässt sich das Verhältnis anhand einer Geraden mit positiver Steigung darstellen. Ein negativer Korrelationskoeffizient sagt aus, dass bei steigenden Werten des einen Merkmals die Werte des anderen Merkmals fallen. Je näher der Wert an -1 liegt, desto besser lässt sich das Verhältnis anhand einer Geraden mit negativer Steigung darstellen.

Ein Überblick über die Korrelationskoeffizienten lässt sich mit einem einfachen Befehl erzeugen. 

In [None]:
import seaborn as sns
corr_matrix = train_set.corr()
plt.figure(figsize=(7, 5))
sns.heatmap(corr_matrix, annot=True, vmin=-1, vmax=1)
plt.show()

<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>
<b>Arbeitsauftrag:</b> 
Überlegen Sie: welche Merkmale scheinen den größten Einfluss auf das Überleben auf der Titianic gehabt zu haben? 
</div>

Zunächst wollen wir für die Modellierung deswegenausschließlich die Merkmale `Sex` und `Pclass` (und natürlich `Survived` als Zielvariable) betrachten. Die Auswahl wird im nächsten Schritt durchgeführt, das Zielmerkmal wird als `y` (abhängige Variable), die Menge aus Geschlecht und Passagierklasse als `X` (unabhängige Variable) gespeichert: 

In [None]:
X_train=train_set[['Sex', 'Pclass']]
X_train.info()
y_train=train_set[['Survived']]

X_test=test_set[['Sex', 'Pclass']]
X_test.info()
y_test=test_set[['Survived']]

Die Ansicht zeigt, dass bezüglich der ausgewählten Merkmale keine `NaN` Einträge vorhanden sind, deshalb kann mit der Modellierung begonnen werden. 

<div class="alert alert-block alert-warning">
<b>Ergebnissicherung:</b> <br>
    - Der Arbeitsbereich Datenvorbereitung dient dazu, den Datensatz so zu bereinigen und vorzubereiten, dass mit diesem die Modellierung vorgenommen werden kann.
</div>

### Modellierung <a name="kap4"></a>

Nun wird mit Hilfe der ausgewählten Merkmale aus den Trainingsdaten ein Modell zur Vorhersage des Überlebens der Reisenden erstellt. Das Modell, welches hier genutzt wird, ist ein Entscheidungsbaum (Decision Tree). 

Die folgende Zelle importiert das Modul zur Nutzung von Entscheidungbäumen und iniziiert dann einen Baum mit Tiefe 2 (`max_depth = 2`), es dürfen also zwei Unterscheidungsebenen erstellt werden.

In [None]:
from sklearn.tree import DecisionTreeClassifier
tree_clf = DecisionTreeClassifier(max_depth = 2)
tree_clf.fit(X_train, y_train)

In [None]:
tree_clf.predict([[1,3]])

Um das Modell zu visualisieren, wird mit dem folgenden Befehl der entstandene Baum ausgegeben.

In [None]:
from sklearn import tree
tree.plot_tree(tree_clf, feature_names = X_train.columns, class_names=['not-Survived', 'Survived'], filled=True); 

Das erste Modell wurde erfolgreich erzeugt. Die Visualisierung zeigt eine Entscheidung auf zwei Entscheidungsebenen, die erste nach dem Geschlecht, die zweite nach der Passagierklasse. Die Ausgabe (und Farbe) auf der untersten Ebene zeigen die Art der Klassifikation an.

<div class="alert alert-block alert-warning">
<b>Ergebnissicherung:</b> <br>
    - Der Arbeitsbereich Modellierung dient dazu, die für den Datensatz geeigneten Methoden des Data Minings zu ermitteln und anzuwenden. Dabei werden die Parameter der Modelle optimiert und häufig verschiedene Modelle erstellt und verglichen.
</div>

### Modellgüte <a name="kap41"></a>

Ein erster Ansatz, um die Güte eines Modells einzuschätzen, ist die Trefferquote des Ziel-Merkmals bezüglich der Trainingsdaten und bezüglich der Testdaten. Dies wird in der folgenden Zelle berechnet:

In [None]:
print(tree_clf.score(X_train, y_train))
print(tree_clf.score(X_test, y_test))

<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>
    
Eine weitere Möglichkeit, die Güte eines Modells zu überprüfen ist die Konfusionsmatrix. Um diese zu nutzen, ist die Funktion `confusion_matrix` aus dem metrics Modul sehr hilfreich. Schauen Sie in der Dokumentation von sklearn nach und versuchen Sie es!

Tipp: Importieren Sie aus der Bibliothek `sklearn` das Modul `metrics` und nutzen Sie dann den Befehl `metrics.confusion_matrix(...)` mit der durch das Modell ermittelten Klasse und der tatsächlichen Klasse als Eingabeparametern.<br>
    
Frage: Was könnten die Einträge der ausgegebenen Matrix bedeuten?   
</div>

In [None]:
# Platz für Arbeitsauftrag

Die Konfusionsmatrix gibt uns genauer Erkenntnisse über die Art der falschen Vorhersagen.

Das erste Modell könnte nun herausgegeben werden, es ist aber sinnvoller, noch einmal die vorhergehenden Schritte durchzugehen und zu überlegen, ob es mit einem neuen Durchlauf noch verbessert werden kann.


<div class="alert alert-block alert-warning">
<b>Ergebnissicherung:</b> <br>
    - Der Arbeitsbereich Evaluation dient dazu, die erstellten Modelle qualitativ zu bewerten, diese mit der Aufgabenstellung abzugleichen und das beste Modell auszuwählen.
</div>

#### Iteration zu den vorhergehenden Schritten <a name="kap42"></a>

Bei diesem Schritt handelt es sich nicht um einen eigenen Arbeitsbereich, sondern vielmehr um die systematische Wiederholung der vorhergehenden Arbeitsbereiche für eine potentielle Verbesserung des Modells, beispielsweise anhand folgender Fragen: 
- Sollte versucht werden, fehlende Werte durch geschätzte Werte zu ersetzen, um nicht so viele Daten herauslöschen zu müssen?
- Können andere oder mehr Merkmale verwendet werden, um das Modell zu erstellen? 
- Kann eine Veränderung der Modellparameter zu einem verbesserten Modell führen? 


<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>
    
Versuchen Sie, mit Hilfe der Data Frame Methode `df['Spaltenname'].mean()` und dem Anzeiger `df.loc` die fehlenden Werte in  `Age` und `Fare` durch mittelwerte zu ersetzen.

Bauen Sie nun einen Entscheidungsbau, der auchdie Merkmale `Parch`, `Age` und `Fare` für die Modellierung betrachtet.
Der Entscheidungsbaum soll sich bis zu einer Tiefe von 3 aufbauen. 

Zu Ihrer Hilfe findet sich unten schon ein Teil des Codes - Sie müssen nur die Punkte ersetzen.

</div>


In [None]:
# df.loc[..., 'Age'] = ...
# df.loc[..., 'Fare'] = ...

In [None]:
#train_set, test_set = train_test_split(df, test_size=0.3, random_state=0, stratify = df['Survived'])
#X_train= ...
#y_train= ...

#X_test= ...
#y_test= ...

In [None]:
# tree_clf = DecisionTreeClassifier(...)  
# tree_clf.fit(X_train, y_train)

In [None]:
tree.plot_tree(tree_clf, feature_names = X_train.columns, class_names=True, filled=True);

In [None]:
print(tree_clf.score(X_train, y_train))
print(tree_clf.score(X_test, y_test))

Das Modell hat sich durch diese Schritte ein wenig verbessert! 
Es kann beobachtet werden, dass sich ein Modell manchmal schon durch schlichtes Ausprobieren optimieren lässt.

<span style="color:#FF5F00"><b>AUFGABE:</b></span><br>

Nutzen Sie die nachfolgend vorgegebenen Bausteine, um mit der Auswahl der Merkmale und der Tiefe des Baums zu experimentieren, indem Sie die Bausteine einkommentieren und mit Parametern befüllen. Beschreiben Sie ihr finales Ergebnis. Halten Sie alle Vorgehensweisen und Parameter fest. Versuchen Sie, die Güte Ihres Modells so weit wie irgend möglich zu optimieren. <br>
</div>



In [None]:
# Baustein zum Trennen von Trainingsdaten und Testdaten
# train_set, test_set = train_test_split(df, test_size=0.3, random_state=0, stratify = df['Survived'])
# X_train=train_set[[ ]]
# y_train=train_set[['Survived']]
# X_train.info()

# X_test=test_set[[ ]]
# X_test.info()
# y_test=test_set[['Survived']]

In [None]:
# Baustein zum Fitten und Ausgeben des Modells und seiner Güte
#tree_clf_v2 = DecisionTreeClassifier(max_depth = 3)  
#tree_clf_v2.fit(X_train, y_train)
#tree.plot_tree(tree_clf_v2, feature_names = X_train.columns, class_names=True, filled=True) 
#print(tree_clf_v2.score(X_train, y_train))
#print(tree_clf_v2.score(X_test, y_test))