Seminar Information Retrieval

Seminar im Wintersemester 2008. Prof. Tobias Scheffer.

Termine

Die Veranstaltung umfasst 2 SWS (3 LP). Das Seminar findet als Blockseminar statt, die Termine werden zu Beginn des Semesters abgesprochen.

Inhalte

Information Retrieval beschäftigt sich mit der Suche nach und dem Zugriff auf Informationen. Web-Suchmaschinen und digitale Bibliotheken bilden inhaltliche Schwerpunkte. Neben den technischen Inhalten bildet das Erlernen eines guten Vortragsstils einen Schwerpunkt des Seminars.

Tipps zur Ausarbeitung und Vortragspräsentation

Folien der Einführungsvorlesung

Vorraussichtliche Themen

Thema Literatur
Textrepraesentation (stopwords, stemming, vector space model, tf-idf), Retrieval mit Kosinus-Ähnlichkeit, Evaluation (Precision/Recall, ROC-Analyse)
  • [1] Kapitel 2.2.2, 2.2.4, 6.2, 6.3, 8.3, 8.4
Indexerstellung, Suchstrategien
Das wichtigste Merkmal von Textdatenbanken ist die schnelle Textsuche. Dieses Thema behandelt die Erstellung performanter Suchindizes für statische Textdatenbanken und Suchstrategien in dynamischen Texten.
  • [2] Kap. 8
  • Ottmann & Widmayer. Algorithmen und Datenstrukturen, Spektrum Akademischer Verlag. 1996.
Retrieval mit Probabilistischen Modellen
  • [1] Kapitel 11, 12
Webseitenranking für Internetsuchanfragen (Pagerank, HITS, Salsa, Topic-Rank)
Lernen aus Clickstreams, Rank-SVM, Relevance Feedback
Email-Spam-Filterung auf Text-Ebene
Collaborative Prediction, Recommendation Systems
Textklassifikation (Rocchio, Support Vector Machines)
Dieses Thema behandelt die automatische Klassifikation von Texten.
z.B. Filterung von Emails 
Aktives Lernen

Literatur

[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
[2] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999.