Vorlesung Data Science

Herzlich Willkommen zum Kurs Data Science im Master Ingenieurinformatik an der HTW Berlin.
➤ Was ist Data Science?
Data Science ist das Handwerk vom Umgang mit Daten, bei dem man sich auch mal die Hände schmutzig machen muss. Hier werden keine eleganten Algorithmen auf Papier ersonnen – hier werden Daten so lange abgeklopft, bis man die Erkenntnisse herausgearbeitet hat. Dabei fliegen Späne, Hände werden schmutzig und es fließen Schweiß und Tränen. Unser Ziel ist es, alle Arbeitsschritte vom Betreten der Werkstatt über das Verstehen und Bearbeiten unseres Rohmaterials bis hin zum Erstellen und Verkaufen unseres finalen Werkstücks in einem Semester zu adressieren.
➤ Wie ist die Vorlesung aufgebaut?
Die Veranstaltung besteht aus drei Bereichen:
- einem Theorieteil, den Sie sich wöchentlich selbstständig zu Hause anlesen sollen.
- einem Praxisteil, den wir wöchentlich vor Ort gemeinsam üben und
- einem Gesellenstück, welches Sie ab der zweiten Semesterhälfte selbstständig anfertigen.
Konkret werden wir uns mit folgenden Inhalten beschäftigen:1
Vor der Vorlesung
Bitte studieren Sie VOR der der ersten Vorlesung folgenden Inhalt:
Teil 1: Werkzeuge kennen
- Grundlagen, Organisatorisches, Daten
- Werkzeuge für Data Science
- Daten verstehen als Projekt
- Einfache Visualisierungen
- Fortgeschrittene Visualisierungen
Teil 2: Echte Problem analysieren und Lösungen organisieren
- Data Engineering für Strukturierte Daten (Datenbanken, Clustering, DimRed)
- Data Engineering für unstrukturierte Daten (NoSQL) und Bilder
- Statistische Inferenz und Forecasting
- ChatGPT und Vektordatenbanken
Teil 3: Verantwortungsvoll die Wirkung von Lösungen steuern
Der Theorie-Teil wird mit einer Klausur abgeschlossen. Weitere Details zur Bewertung finden Sie im Moodle.
➤ Was lernt man in dieser Vorlesung?
1. Sie kennen die Werkzeuge und können sie bedienen: Am Ende der Veranstaltung kennen Sie die gängigen Grundzüge der Datenwissenschaften (Data Science). Sie könnnen Problemstellungen aus der Praxis einordnen und bzgl. der notwendigen Algorithmik und Dateninfrastruktur analysieren. Sie können eigene Daten analysieren und visualisieren sowie schematisch den abstrakten Anwendungsbereichen von Datenanalysealgorithmen zuordnen. Sie kennen Grenzen der Verfahren und können Verfahren anwenden sowie diese in einer Dateninfrastruktur integrieren.
2. Sie können das richtige Werkzeug auswählen: Sie lernen, Verfahren bzgl. unterschiedlicher Bewertungskriterien (Komplexität, Rechenbedarf bei der Ausführung, Genauigkeit etc.) zu bewerten, im Experiment zu vergleichen und damit gegebene Anwendungsfälle zu explorieren. Sie können anhand ihres tiefen Verständnisses der Methoden und Zusammenhänge zu anderen Gebieten wie etwa der Statistik, der Numerik und des maschinellen Lernens, komplexe Data Science Workflows entwerfen und miteinander vergleichen.
3. Sie gehen bewusst, wertschöpfend und verantwortungsvoll damit um: Sie können tabellarische und Zeitreihendaten für einen Anwendungsfall automatisiert aufbereiten, analysieren und statistische Zusammenhänge in Daten aufdecken oder statistisch widerlegen. Sie können daraus für eine konkrete fachliche Domäne Handlungsemfehlungen ableiten. Sie gehen bei einer Datenanalyse zielsicher strategisch vor, um wertschöpfende oder sinnstiftende Erkenntnisse zu generieren, und sind sich eventueller Fallstricke bewusst.
✘ Was lernen wir NICHT in dieser Vorlesung?
Wir beschäftigen uns wenig mit Statistik und Mathematik und nur unwesentlich mit Algorithmen. Wir arbeiten auch nicht mit Anfänger- oder Spielzeugdaten, sondern entscheiden live, welche echten Werkstücke in die Werkstatt kommen (Datensätze aus dem aktuellen Tagesgeschehen, Verifikation von Tages-Nachrichten, Datensätze aus aktuellen studentischen Projekten). Wir stellen häufig Fragen, zu denen es keine unmittelbar richtige Antwort geben wird. Wer hier rauskommt, ist kein KI-Experte und kann keine Algorithmen entwerfen. Er versteht nicht, warum das Werkzeug funktioniert, sondern, wie man es richtig in die Hand nimmt. Dies ist insbesondere auch keine Machine Learning Vorlesung - wir bauen hier keine KI-Modelle und optimieren keine Algorithmen, sondern wende diese nur an, um eine gute Geschichte über Daten zu erzählen.
★ Wie wird die Teilnahme bewertet?
Alle relevanten Informationen zur Bewertung finden Sie im Moodle.
-
Die Unterlagen zur Vorlesung sind work in progress und werden sich kontinuierlich verändern und weiterentwickeln. ↩