htw saar Piktogramm QR-encoded URL
Zurück zur Hauptseite Version des Moduls auswählen:
Lernziele hervorheben XML-Code


[Lernergebnisse des Moduls anzeigen]

Data Engineering

Modulbezeichnung:
Bezeichnung des Moduls innerhalb des Studiengangs. Sie soll eine präzise und verständliche Überschrift des Modulinhalts darstellen.
Data Engineering
Modulbezeichnung (engl.): Data Engineering
Studiengang:
Studiengang mit Beginn der Gültigkeit der betreffenden ASPO-Anlage/Studienordnung des Studiengangs, in dem dieses Modul zum Studienprogramm gehört (=Start der ersten Erstsemester-Kohorte, die nach dieser Ordnung studiert).
Praktische Informatik, Master, SO 01.10.2026
Code: PIM-DE
SAP-Submodul-Nr.:
Die Prüfungsverwaltung mittels SAP-SLCM vergibt für jede Prüfungsart in einem Modul eine SAP-Submodul-Nr (= P-Nummer). Gleiche Module in unterschiedlichen Studiengängen haben bei gleicher Prüfungsart die gleiche SAP-Submodul-Nr..
P222-0050
SWS/Lehrform:
Die Anzahl der Semesterwochenstunden (SWS) wird als Zusammensetzung von Vorlesungsstunden (V), Übungsstunden (U), Praktikumsstunden (P) oder Projektarbeitsstunden (PA) angegeben. Beispielsweise besteht eine Veranstaltung der Form 2V+2U aus 2 Vorlesungsstunden und 2 Übungsstunden pro Woche.
3V+1U (4 Semesterwochenstunden)
ECTS-Punkte:
Die Anzahl der Punkte nach ECTS (Leistungspunkte, Kreditpunkte), die dem Studierenden bei erfolgreicher Ableistung des Moduls gutgeschrieben werden. Die ECTS-Punkte entscheiden über die Gewichtung des Fachs bei der Berechnung der Durchschnittsnote im Abschlusszeugnis. Jedem ECTS-Punkt entsprechen 30 studentische Arbeitsstunden (Anwesenheit, Vor- und Nachbereitung, Prüfungsvorbereitung, ggfs. Zeit zur Bearbeitung eines Projekts), verteilt über die gesamte Zeit des Semesters (26 Wochen).
6
Studiensemester: 2
Pflichtfach: ja
Arbeitssprache:
Deutsch
Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen
Prüfungsart:
Klausur, Dauer 120 min.

[letzte Änderung 29.07.2024]
Verwendbarkeit / Zuordnung zum Curriculum:
Alle Studienprogramme, die das Modul enthalten mit Jahresangabe der entsprechenden Studienordnung / ASPO-Anlage.

DFI-DE (P610-0286) Informatik, Master, ASPO 01.10.2018 , 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, ASPO 01.10.2017 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, ASPO 01.10.2017 , 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, SO 01.10.2026 , 2. Semester, Pflichtfach
Arbeitsaufwand:
Der Arbeitsaufwand des Studierenden, der für das erfolgreiche Absolvieren eines Moduls notwendig ist, ergibt sich aus den ECTS-Punkten. Jeder ECTS-Punkt steht in der Regel für 30 Arbeitsstunden. Die Arbeitsstunden umfassen Präsenzzeit (in den Vorlesungswochen), Vor- und Nachbereitung der Vorlesung, ggfs. Abfassung einer Projektarbeit und die Vorbereitung auf die Prüfung.

Die ECTS beziehen sich auf die gesamte formale Semesterdauer (01.04.-30.09. im Sommersemester, 01.10.-31.03. im Wintersemester).
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen für Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent/innen: Prof. Dr. Klaus Berberich

[letzte Änderung 05.10.2016]
Lernziele:
Nach erfolgreichem Absolvieren des Moduls Data Engineering verfügen die Studierenden über ein fundiertes Verständnis moderner Datenplattformen, Datenmodelle und Verarbeitungskonzepte. Sie kennen die grundlegenden Bausteine relationaler, analytischer und nichtrelationaler Datenhaltung, einschließlich konzeptioneller Modellierung, relationaler Algebra, Normalisierung und wesentlicher Anfragesprachen. Zudem verstehen sie die Prinzipien zeitgemäßer Datenarchitekturen wie Data Lakes, Lakehouses und Data Mesh sowie den vollständigen Data Lifecycle von der Ingestion über Speicherung und Transformation bis hin zu Serving, Governance und Observability.
 
Die Studierenden wenden relationale und multidimensionale Modellierungsmethoden an, entwickeln SQL-Abfragen und implementieren ETL- und ELT-Pipelines einschließlich Datenbereinigung, Deduplikation und Orchestrierung. Sie arbeiten mit Batch- und Streaming-Technologien und nutzen grundlegende Verfahren aus dem Information Retrieval und der Vektorsuche (z. B. ANN), um strukturierte und unstrukturierte Daten effizient zu verarbeiten.
 
Weiterhin analysieren sie Datenmodelle, Anfragepläne, Datenqualitätsprobleme und Komponenten moderner Plattformen im Hinblick auf Effizienz, Skalierbarkeit und Konsistenz. Sie bewerten verschiedene Datenbanktechnologien (SQL, NoSQL, NewSQL), Datenformate (JSON, Parquet, Protobuf), Integrationsstrategien sowie Optimierungs- und Governance-Mechanismen (Metadata Management, Lineage, Privacy, Security, Observability) hinsichtlich ihrer Eignung für konkrete Anforderungen.
 
Abschließend entwerfen und implementieren die Studierenden vollständige Datenpipelines und Data-Warehouse- bzw. Lakehouse-Strukturen, integrieren Qualitätssicherungs- und Monitoring-Konzepte und nutzen Such- sowie Ähnlichkeitsverfahren auf Basis moderner Embeddings. Damit sind sie in der Lage, komplexe datenintensive Anwendungen fachlich fundiert zu planen, technisch umzusetzen und kritisch zu beurteilen.

[letzte Änderung 27.11.2025]
Inhalt:
1. Einführung Data Engineering
1.1 Was ist Data Engineering?
1.2 Datenplattformen im Überblick
1.3 Data Lifecycle
1.4 Anwendungsszenarien
 
2. Grundlagen Relationaler Datenbanken
2.1 Konzeptuelle Modellierung (ERM)
2.2 Relationales Modell & Algebra
2.3 Relationale Entwurfstheorie
2.4 Structured Query Language
 
3. Data Warehouses
3.1 OLAP vs. OLTP
3.2 Data Cubes
3.3 Konzeptuelle Modellierung (Star/Snowflake)
3.4 Anfragesprachen
3.5 Implementierungsaspekte
 
4. Moderne Datenplattformen
4.1 Data Lakes & Lakehouses
4.2 Data Mesh & Fabric
4.3 Batch Processing
4.4 Stream Processing
4.5 Datenformate (JSON, Parquet, Protobuf)
4.6 Anfragebearbeitung und -optimierung
4.7 Implementierungsaspekte
 
5. Data Integration
5.1 Datenpipelines
5.2 ETL & ELT
5.3 Deduplikation
5.4 Orchestrierung
5.5 Implementierungsaspekte
 
6. Data Management & Governance
6.1 Metadata Management
6.2 Data Lineage
6.3 Data Quality
6.4 Data Privacy & Security
6.5 Data Observability
6.6 Implementierungsaspekte
 
7. NoSQL & NewSQL
7.1 Key-Value-Stores
7.2 Extensible Record Stores
7.3 Dokumentenorientierte Datenbanken
7.4 Graphdatenbanken
7.5 Zeitreihendatenbanken
7.6 Implementierungsaspekte
 
8. Information Retrieval und Vektorsuche
8.1 Klassische Retrieval-Modelle (VSM, BM25)
8.2 Moderne Retrieval-Modelle (ColBERT, SPLADE)
8.3 Evaluation (Precision, Recall, nDCG)
8.4 Nächste-Nachbarn-Suche (ANN)
8.5 Implementierungsaspekte

[letzte Änderung 27.11.2025]
Weitere Lehrmethoden und Medien:
Folien, Videos, Jupyter Notebooks sowie vorlesungsbegleitende theoretische und praktische Übungen

[letzte Änderung 27.11.2025]
Literatur:
Alonso O. and Baeza-Yates R.: Information Retrieval: Advanced Topics and Techniques, ACM 2024
 
Garcia-Molina H., Widom J. und Ulmman J.: Database Systems: The Complete Book, Pearson Education, 2013
 
Inmon, W. H.: Building the Data Warehouse, Wiley, 2005
 
Kemper A. und Eickler A.: Datenbanksysteme - Eine Einführung, De Gruyter, 2015
 
Linstedt D. und Olschimke M.: Building a Scalable Data Warehouse with Data Vault 2.0, Morgan Kaufmann, 2015
 
Kimball R. und Ross M.: The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Wiley, 2013
 
Kleppmann M.: Designing Data-Intensive Applications, O´Reilly, 2017
 
Leskovec J., Rajaraman A. und Ullman J.: Mining of Massive Datasets, Cambridge University Press, 2020
 
Manning C., Raghavan P. und Schütze H.: Introduction to Information Retrieval, Cambridge University Press, 2008.
 
Reis J. und Housley M.: Fundamentals of Data Engineering: Plan and Build Robust Data Systems, O’Reilly, 2022
 
Saake G. und Sattler K.-U.: Datenbanken: Implementierungstechniken, mitp Professional, 2011

[letzte Änderung 27.11.2025]
[Sat Nov 29 18:49:26 CET 2025, CKEY=kde, BKEY=pim3, CID=PIM-DE, LANGUAGE=de, DATE=29.11.2025]