|
|
| Modulbezeichnung (engl.):
Data Engineering |
|
| Code: PIM-DE |
|
|
3V+1U (4 Semesterwochenstunden) |
|
6 |
| Studiensemester: 2 |
| Pflichtfach: ja |
Arbeitssprache:
Deutsch |
Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen |
Prüfungsart:
Klausur, Dauer 120 min.
[letzte Änderung 29.07.2024]
|
DFI-DE (P610-0286) Informatik, Master, ASPO 01.10.2018
, 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, ASPO 01.10.2017
, 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, ASPO 01.10.2017
, 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, SO 01.10.2026
, 2. Semester, Pflichtfach
|
|
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.
|
Empfohlene Voraussetzungen (Module):
Keine.
|
Als Vorkenntnis empfohlen für Module:
|
Modulverantwortung:
Prof. Dr. Klaus Berberich |
Dozent/innen: Prof. Dr. Klaus Berberich
[letzte Änderung 05.10.2016]
|
Lernziele:
Nach erfolgreichem Absolvieren des Moduls Data Engineering verfügen die Studierenden über ein fundiertes Verständnis moderner Datenplattformen, Datenmodelle und Verarbeitungskonzepte. Sie kennen die grundlegenden Bausteine relationaler, analytischer und nichtrelationaler Datenhaltung, einschließlich konzeptioneller Modellierung, relationaler Algebra, Normalisierung und wesentlicher Anfragesprachen. Zudem verstehen sie die Prinzipien zeitgemäßer Datenarchitekturen wie Data Lakes, Lakehouses und Data Mesh sowie den vollständigen Data Lifecycle von der Ingestion über Speicherung und Transformation bis hin zu Serving, Governance und Observability. Die Studierenden wenden relationale und multidimensionale Modellierungsmethoden an, entwickeln SQL-Abfragen und implementieren ETL- und ELT-Pipelines einschließlich Datenbereinigung, Deduplikation und Orchestrierung. Sie arbeiten mit Batch- und Streaming-Technologien und nutzen grundlegende Verfahren aus dem Information Retrieval und der Vektorsuche (z. B. ANN), um strukturierte und unstrukturierte Daten effizient zu verarbeiten. Weiterhin analysieren sie Datenmodelle, Anfragepläne, Datenqualitätsprobleme und Komponenten moderner Plattformen im Hinblick auf Effizienz, Skalierbarkeit und Konsistenz. Sie bewerten verschiedene Datenbanktechnologien (SQL, NoSQL, NewSQL), Datenformate (JSON, Parquet, Protobuf), Integrationsstrategien sowie Optimierungs- und Governance-Mechanismen (Metadata Management, Lineage, Privacy, Security, Observability) hinsichtlich ihrer Eignung für konkrete Anforderungen. Abschließend entwerfen und implementieren die Studierenden vollständige Datenpipelines und Data-Warehouse- bzw. Lakehouse-Strukturen, integrieren Qualitätssicherungs- und Monitoring-Konzepte und nutzen Such- sowie Ähnlichkeitsverfahren auf Basis moderner Embeddings. Damit sind sie in der Lage, komplexe datenintensive Anwendungen fachlich fundiert zu planen, technisch umzusetzen und kritisch zu beurteilen.
[letzte Änderung 27.11.2025]
|
Inhalt:
1. Einführung Data Engineering 1.1 Was ist Data Engineering? 1.2 Datenplattformen im Überblick 1.3 Data Lifecycle 1.4 Anwendungsszenarien 2. Grundlagen Relationaler Datenbanken 2.1 Konzeptuelle Modellierung (ERM) 2.2 Relationales Modell & Algebra 2.3 Relationale Entwurfstheorie 2.4 Structured Query Language 3. Data Warehouses 3.1 OLAP vs. OLTP 3.2 Data Cubes 3.3 Konzeptuelle Modellierung (Star/Snowflake) 3.4 Anfragesprachen 3.5 Implementierungsaspekte 4. Moderne Datenplattformen 4.1 Data Lakes & Lakehouses 4.2 Data Mesh & Fabric 4.3 Batch Processing 4.4 Stream Processing 4.5 Datenformate (JSON, Parquet, Protobuf) 4.6 Anfragebearbeitung und -optimierung 4.7 Implementierungsaspekte 5. Data Integration 5.1 Datenpipelines 5.2 ETL & ELT 5.3 Deduplikation 5.4 Orchestrierung 5.5 Implementierungsaspekte 6. Data Management & Governance 6.1 Metadata Management 6.2 Data Lineage 6.3 Data Quality 6.4 Data Privacy & Security 6.5 Data Observability 6.6 Implementierungsaspekte 7. NoSQL & NewSQL 7.1 Key-Value-Stores 7.2 Extensible Record Stores 7.3 Dokumentenorientierte Datenbanken 7.4 Graphdatenbanken 7.5 Zeitreihendatenbanken 7.6 Implementierungsaspekte 8. Information Retrieval und Vektorsuche 8.1 Klassische Retrieval-Modelle (VSM, BM25) 8.2 Moderne Retrieval-Modelle (ColBERT, SPLADE) 8.3 Evaluation (Precision, Recall, nDCG) 8.4 Nächste-Nachbarn-Suche (ANN) 8.5 Implementierungsaspekte
[letzte Änderung 27.11.2025]
|
Weitere Lehrmethoden und Medien:
Folien, Videos, Jupyter Notebooks sowie vorlesungsbegleitende theoretische und praktische Übungen
[letzte Änderung 27.11.2025]
|
Literatur:
Alonso O. and Baeza-Yates R.: Information Retrieval: Advanced Topics and Techniques, ACM 2024 Garcia-Molina H., Widom J. und Ulmman J.: Database Systems: The Complete Book, Pearson Education, 2013 Inmon, W. H.: Building the Data Warehouse, Wiley, 2005 Kemper A. und Eickler A.: Datenbanksysteme - Eine Einführung, De Gruyter, 2015 Linstedt D. und Olschimke M.: Building a Scalable Data Warehouse with Data Vault 2.0, Morgan Kaufmann, 2015 Kimball R. und Ross M.: The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2013 Kleppmann M.: Designing Data-Intensive Applications, O´Reilly, 2017 Leskovec J., Rajaraman A. und Ullman J.: Mining of Massive Datasets, Cambridge University Press, 2020 Manning C., Raghavan P. und Schütze H.: Introduction to Information Retrieval, Cambridge University Press, 2008. Reis J. und Housley M.: Fundamentals of Data Engineering: Plan and Build Robust Data Systems, O’Reilly, 2022 Saake G. und Sattler K.-U.: Datenbanken: Implementierungstechniken, mitp Professional, 2011
[letzte Änderung 27.11.2025]
|