Moduldatenbank - Modul Data Engineering

Data Engineering

Modulbezeichnung (engl.): Data Engineering

Code: PIM-DE

3V+1U (4 Semesterwochenstunden)

Studiensemester: 2

Pflichtfach: ja

Arbeitssprache:
Deutsch

Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen

Prüfungsart:
Klausur, Dauer 120 min.

[letzte Änderung 29.07.2024]

DFI-DE (P610-0286) Informatik, Master, Ordnung 01.10.2018 , 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, Ordnung 01.10.2019 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, Ordnung 01.10.2017 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, Ordnung 01.10.2026 , 2. Semester, Pflichtfach

Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.

Empfohlene Voraussetzungen (Module):
Keine.

Als Vorkenntnis empfohlen für Module:

Modulverantwortung:
Prof. Dr. Klaus Berberich

Dozent/innen:
Prof. Dr. Klaus Berberich

[letzte Änderung 27.10.2016]

Lernziele:
Nach erfolgreichem Absolvieren des Moduls Data Engineering verfügen die Studierenden über ein fundiertes Verständnis moderner Datenplattformen, Datenmodelle und Verarbeitungskonzepte. Sie kennen die grundlegenden Bausteine relationaler, analytischer und nichtrelationaler Datenhaltung, einschließlich konzeptioneller Modellierung, relationaler Algebra, Normalisierung und wesentlicher Anfragesprachen. Zudem verstehen sie die Prinzipien zeitgemäßer Datenarchitekturen wie Data Lakes, Lakehouses und Data Mesh sowie den vollständigen Data Lifecycle von der Ingestion über Speicherung und Transformation bis hin zu Serving, Governance und Observability.

Die Studierenden wenden relationale und multidimensionale Modellierungsmethoden an, entwickeln SQL-Abfragen und implementieren ETL- und ELT-Pipelines einschließlich Datenbereinigung, Deduplikation und Orchestrierung. Sie arbeiten mit Batch- und Streaming-Technologien und nutzen grundlegende Verfahren aus dem Information Retrieval und der Vektorsuche (z. B. ANN), um strukturierte und unstrukturierte Daten effizient zu verarbeiten.

Weiterhin analysieren sie Datenmodelle, Anfragepläne, Datenqualitätsprobleme und Komponenten moderner Plattformen im Hinblick auf Effizienz, Skalierbarkeit und Konsistenz. Sie bewerten verschiedene Datenbanktechnologien (SQL, NoSQL, NewSQL), Datenformate (JSON, Parquet, Protobuf), Integrationsstrategien sowie Optimierungs- und Governance-Mechanismen (Metadata Management, Lineage, Privacy, Security, Observability) hinsichtlich ihrer Eignung für konkrete Anforderungen.

Abschließend entwerfen und implementieren die Studierenden vollständige Datenpipelines und Data-Warehouse- bzw. Lakehouse-Strukturen, integrieren Qualitätssicherungs- und Monitoring-Konzepte und nutzen Such- sowie Ähnlichkeitsverfahren auf Basis moderner Embeddings. Damit sind sie in der Lage, komplexe datenintensive Anwendungen fachlich fundiert zu planen, technisch umzusetzen und kritisch zu beurteilen.

[letzte Änderung 27.11.2025]

Inhalt:
1. Einführung Data Engineering
1.1 Was ist Data Engineering?
1.2 Datenplattformen im Überblick
1.3 Data Lifecycle
1.4 Anwendungsszenarien

2. Grundlagen Relationaler Datenbanken
2.1 Konzeptuelle Modellierung (ERM)
2.2 Relationales Modell & Algebra
2.3 Relationale Entwurfstheorie
2.4 Structured Query Language

3. Data Warehouses
3.1 OLAP vs. OLTP
3.2 Data Cubes
3.3 Konzeptuelle Modellierung (Star/Snowflake)
3.4 Anfragesprachen
3.5 Implementierungsaspekte

4. Moderne Datenplattformen
4.1 Data Lakes & Lakehouses
4.2 Data Mesh & Fabric
4.3 Batch Processing
4.4 Stream Processing
4.5 Datenformate (JSON, Parquet, Protobuf)
4.6 Anfragebearbeitung und -optimierung
4.7 Implementierungsaspekte

5. Data Integration
5.1 Datenpipelines
5.2 ETL & ELT
5.3 Deduplikation
5.4 Orchestrierung
5.5 Implementierungsaspekte

6. Data Management & Governance
6.1 Metadata Management
6.2 Data Lineage
6.3 Data Quality
6.4 Data Privacy & Security
6.5 Data Observability
6.6 Implementierungsaspekte

7. NoSQL & NewSQL
7.1 Key-Value-Stores
7.2 Extensible Record Stores
7.3 Dokumentenorientierte Datenbanken
7.4 Graphdatenbanken
7.5 Zeitreihendatenbanken
7.6 Implementierungsaspekte

8. Information Retrieval und Vektorsuche
8.1 Klassische Retrieval-Modelle (VSM, BM25)
8.2 Moderne Retrieval-Modelle (ColBERT, SPLADE)
8.3 Evaluation (Precision, Recall, nDCG)
8.4 Nächste-Nachbarn-Suche (ANN)
8.5 Implementierungsaspekte

[letzte Änderung 27.11.2025]

Weitere Lehrmethoden und Medien:
Folien, Videos, Jupyter Notebooks sowie vorlesungsbegleitende theoretische und praktische Übungen

[letzte Änderung 27.11.2025]

Literatur:
Alonso O. and Baeza-Yates R.: Information Retrieval: Advanced Topics and Techniques, ACM 2024

Garcia-Molina H., Widom J. und Ulmman J.: Database Systems: The Complete Book, Pearson Education, 2013

Inmon, W. H.: Building the Data Warehouse, Wiley, 2005

Kemper A. und Eickler A.: Datenbanksysteme - Eine Einführung, De Gruyter, 2015

Linstedt D. und Olschimke M.: Building a Scalable Data Warehouse with Data Vault 2.0, Morgan Kaufmann, 2015

Kimball R. und Ross M.: The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2013

Kleppmann M.: Designing Data-Intensive Applications, O´Reilly, 2017

Leskovec J., Rajaraman A. und Ullman J.: Mining of Massive Datasets, Cambridge University Press, 2020

Manning C., Raghavan P. und Schütze H.: Introduction to Information Retrieval, Cambridge University Press, 2008.

Reis J. und Housley M.: Fundamentals of Data Engineering: Plan and Build Robust Data Systems, O’Reilly, 2022

Saake G. und Sattler K.-U.: Datenbanken: Implementierungstechniken, mitp Professional, 2011

[letzte Änderung 27.11.2025]

Modul angeboten in Semester:
SS 2025, SS 2024, SS 2023, SS 2022, SS 2021, ...

[Sun Aug 2 03:40:08 CEST 2026, CKEY=kde, BKEY=pim2, CID=PIM-DE, LANGUAGE=de, DATE=02.08.2026]