|
Modulbezeichnung (engl.):
Data Engineering |
|
Code: DFI-DE |
|
3V+1U (4 Semesterwochenstunden) |
6 |
Studiensemester: 2 |
Pflichtfach: ja |
Arbeitssprache:
Deutsch |
Studienleistungen (lt. Studienordnung/ASPO-Anlage):
Übungen |
Prüfungsart:
Klausur, Dauer 120 min.
[letzte Änderung 29.07.2024]
|
DFI-DE (P610-0286) Informatik, Master, ASPO 01.10.2018
, 2. Semester, Pflichtfach
KIM-DE (P222-0050) Kommunikationsinformatik, Master, ASPO 01.10.2017
, 2. Semester, Pflichtfach
PIM-DE (P222-0050) Praktische Informatik, Master, ASPO 01.10.2017
, 2. Semester, Pflichtfach
|
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Veranstaltungsstunden (= 45 Zeitstunden). Der Gesamtumfang des Moduls beträgt bei 6 Creditpoints 180 Stunden (30 Std/ECTS). Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 135 Stunden zur Verfügung.
|
Empfohlene Voraussetzungen (Module):
Keine.
|
Als Vorkenntnis empfohlen für Module:
|
Modulverantwortung:
Prof. Dr. Klaus Berberich |
Dozent/innen: Prof. Dr. Klaus Berberich
[letzte Änderung 09.08.2020]
|
Lernziele:
Nach erfolgreichem Absolvieren dieses Moduls sind Studierende in der Lage große Mengen strukturierter und unstrukturierter Daten zu beherrschen. Sie kennen den grundsätzlichen Aufbau eines (relationalen) Datenbanksystems und sind mit Implementierungstechniken (z.B. Indexstrukturen und Sperrmechanismen) sowie deren Nutzen (z.B. Anfragebeschleunigung und Transaktionsisolation) vertraut. Die Studierenden können transaktionsorientierte (OLTP) und analytischen (OLAP) Anwendungsszenarien voneinander abgrenzen. Sie kennen die Grundbegriffe sogenannter Data Warehouses und können analytische Informationsbedürfnisse in einer geeigneten Anfragesprache (z.B. SQL und MDX) ausdrücken. Zur Beherrschung unstrukturierter Daten (z.B. Textdokumente) kennen die Studierenden grundlegende Modelle des Information Retrievals (z.B. Vektorraummodell) und können diese auf Beispieldaten anwenden. Sie kennen Gütemaße (z.B. Präzision und Ausbeute) und können diese für ermittelte Ergebnisse berechnen. Als Mittel zum Gewinn von Erkenntnissen aus Daten kennen die Studierenden Verfahren des Data Minings, beispielsweise zur Analyse von Warenkörben. Die Studierenden sind in der Lage, die Parameter solcher Verfahren systematisch festzulegen und die zurückgelieferten Ergebnisse kritisch zu beurteilen. Zur verteilten Verarbeitung großer Datenmengen kennen die Studierenden verschiedene verfügbare Plattformen (z.B. MapReduce und Spark). Sie sind in der Lage für eine gegebene analytische Aufgabe eine geeignete Plattform auszuwählen und die Aufgabe mit Hilfe dieser zu implementieren.
[letzte Änderung 04.07.2024]
|
Inhalt:
1. Einführung 2. Datenbanksysteme 2.1 Architektur 2.2 Pufferverwaltung 2.3 Zugriffsstrukturen 2.4 Anfragebearbeitung 2.5 Transaktionsverwaltung 3. Data Warehouses 3.1 Modellierung 3.2 Datenintegration 3.3 Anfragesprachen 3.4 Implementierungsaspekte 4. Information Retrieval 4.1 Retrievalmodelle 4.2 Gütemaße und Evaluation 4.3 Implementierungsaspekte 5. Data Mining 5.1 Klassifikation 5.2 Clustering 5.3 Assoziationsanalye 6. Big Data 6.1 Plattformen (z.B. MapReduce und Spark) 6.2 Schnittstellen (z.B. Pig und Hive) 6.3 Umsetzung ausgewählter Verfahren (z.B. k-Means und PageRank)
[letzte Änderung 04.07.2024]
|
Weitere Lehrmethoden und Medien:
Folien, vorlesungsbegleitende praktische und theoretische Übungen.
[letzte Änderung 18.10.2016]
|
Literatur:
Kemper Alfons und Eickler André: Datenbanksysteme - Eine Einführung, De Gruyter, 2015 Saake Gunter und Sattler Kai-Uwe: Datenbanken: Implementierungstechniken, mitp Professional, 2011 Martin Kleppmann: Designing Data-Intensive Applications, O´Reilly, 2017 Garcia-Molina Hector, Widom Jennifer, Ulmman Jeffrey D.: Database Systems: The Complete Book, Pearson Education, 2013 Leskovec Jure, Rajaraman Anand und Ullman Jeffrey D.: Mining of Massive Datasets, Cambridge University Press, 2014
[letzte Änderung 04.07.2024]
|