htw saar
Zurück zur Hauptseite

Version des Moduls auswählen:

Information Retrieval

Modulbezeichnung: Information Retrieval
Studiengang: Praktische Informatik, Bachelor, ASPO 01.10.2011
Code: PIBWI29
SWS/Lehrform: 2V+2PA (4 Semesterwochenstunden)
ECTS-Punkte: 5
Studiensemester: 5
Pflichtfach: nein
Arbeitssprache:
Deutsch
PrŘfungsart:
Klausur/Projektarbeit
Zuordnung zum Curriculum:
KI584 Kommunikationsinformatik, Bachelor, ASPO 01.10.2011, 5. Semester, Wahlpflichtfach, informatikspezifisch
KIB-IRET Kommunikationsinformatik, Bachelor, ASPO 01.10.2017, 5. Semester, Wahlpflichtfach, informatikspezifisch
PIBWI29 Praktische Informatik, Bachelor, ASPO 01.10.2011, 5. Semester, Wahlpflichtfach, informatikspezifisch
PIB-IRET Praktische Informatik, Bachelor, ASPO 01.10.2017, 5. Semester, Wahlpflichtfach, informatikspezifisch
Arbeitsaufwand:
Die Präsenzzeit dieses Moduls umfasst bei 15 Semesterwochen 60 Stunden. Der Gesamtumfang des Moduls beträgt bei 5 Creditpoints 150 Stunden. Daher stehen für die Vor- und Nachbereitung der Veranstaltung zusammen mit der Prüfungsvorbereitung 90 Stunden zur Verfügung.
Empfohlene Voraussetzungen (Module):
Keine.
Als Vorkenntnis empfohlen fŘr Module:
Modulverantwortung:
Prof. Dr. Klaus Berberich
Dozent: Prof. Dr. Klaus Berberich

[letzte Änderung 18.03.2015]
Lernziele:
Students know about basic methods from Information Retrieval. This
includes retrieval models (e.g., Vector Space Model), link analysis
(e.g., PageRank), and effectiveness measures (e.g., Precision/Recall
and MAP). They can apply/implement those methods in practice. In
addition, students are aware of readily available information
retrieval systems (e.g., Apache Lucene/Solr).


[letzte Änderung 18.03.2015]
Inhalt:
Information Retrieval is pervasive and its applications range from
finding contacts or e-mails on your smartphone to web-search engines
that index billions of web pages. This course covers the most
important methods from Information Retrieval. We will look into how
these methods are defined formally, including the mathematics behind
them, but also see how they can be implemented efficiently in
practice. As part of the project work, we will implement a small
search engine from scratch.
 
1. Introduction
- History
- Applications
- Overview of the Course
 
2. Natural Language
- Documents and Terms
- Stopwords and Stemming/Lemmatization
- Synonyms, Polysems, Compounds
 
3. Retrieval Models
- Boolean Retrieval
- Vector Space Model with TF.IDF Term Weighting
- Language Models
 
4. Indexing Methods
- Inverted Index
- Compression (d-Gaps, Variable-Byte Encoding)
- Index Pruning
 
5. Query Processing
- Holistic Methods (DAAT, TAAT)
- Top-k Methods (NRA, WAND)
 
6. Evaluation
- Cranfield Paradigm
- Benchmark Initiatives (TREC, CLEF, NTCIR)
- Traditional Effectiveness Measures (Precision, Recall, MAP)
- Non-Traditional Effectiveness Measures (nDCG, ERR)
 
7. Web Retrieval
- Crawling
- Near-Duplicate Detection
- Link Analysis (PageRank, HITS)
- Web Spam
 
8. Information Retrieval Systems
- Indri
- Apache Lucene/Solr
- ElasticSearch
 


[letzte Änderung 18.03.2015]
Literatur:
Christopher D. Manning, Prabhakar Ragahavan, and Hinrich Sch├╝tze: Introduction to Information Retrieval, Cambridge University Press, 2008.
(online verf├╝gbar unter: http://nlp.stanford.edu/IR-book/)
 
Reginald Ferber: Information Retrieval: Suchmodelle und Data-Mining Verfahren f├╝r Textsammlungen und das Web, dpunkt, 2003.
(online verfügbar unter: http://information-retrieval.de/irb/ir.html)
 
Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack: Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2010.


[letzte Änderung 18.03.2015]
Modul angeboten in Semester:
SS 2017, SS 2016
[Sat Nov 25 08:40:46 CET 2017, CKEY=kir, BKEY=pi, CID=PIBWI29, LANGUAGE=de, DATE=25.11.2017]