Seminar Maschinelles Lernen und IT-Sicherheit

Seminar im Wintersemester 2009/2010. Dr. Niels Landwehr, Prof. Tobias Scheffer.


Termine

Die Veranstaltung umfasst 2 SWS (3 LP). Das Seminar findet als Blockveranstaltung statt, die Termine werden zu Beginn des Semesters abgesprochen.


Inhalte

Das Seminar beschäftigt sich mit Anwendungen des maschinellen Lernens in der IT-Sicherheit.

In verschiedenen Bereichen der IT-Sicherheit kommen Techniken des maschinellen Lernens zum Einsatz. So können zum Beispiel im Bereich Intrusion Detection Systeme darauf trainiert werden, automatisch verdächtige Host-Anfragen zu erkennen, die darauf abzielen, schädlichen Programmcode in den Host einzuschleusen oder andere Sicherheitlücken auszunutzen. In ähnlicher Weise können Systeme darauf trainiert werden, zu erkennen, wann Kreditkarten-Transaktionen auf Betrug hinweisen; oder Netzwerke von betrügerischen Nutzern in elektronischen Auktionssystemen identifizieren. Eine weiterer wichtiger Anwendungsbereich ist die Erkennung von z.B. Spam oder Phishing-Emails mit Hilfe von gelernten Spamfiltern. Es gibt deshalb inhaltliche Überschneidungen mit dem Proseminar "Spam", und entsprechend eine gemeinsame Einführungsveranstaltung.


Folien zur Einführungsveranstaltung am 20.10.

Folien zum zweiten Einführungstermin (wissenschaftliches Arbeiten) am 03.11.


Vorraussichtliche Themen

Thema Literatur
"Textklassifikation"

Dieses Thema behandelt die automatische Klassifikation von Texten, wie z.B. die Klassifikation von Emails in Spam und nicht-Spam Nachrichten. Dabei geht es insbesondere um die Repräsentation von Textdaten (bag-of-words, TFIDF, n-grams) und die Vorstellung einiger Standardlernverfahren wie Rocchio und SVM.
[1] Kapitel 1,2,3
Email-Spam-Filterung auf Textebene

Dieses Thema behandelt Ansätze zur Spam-Filterung auf Textebene.
[2],[3]
Email-Spam-Filterung auf Graphebene

Dieses Thema behandelt die Filterung von Spam-Emails basierend auf der Analyse von Sender/Empfänger Graphen.
[4],[5]
Web-Spam und Trust-Rank

In diesem Thema geht es um Web-Spam und Angriffe auf die Ranking-Algorithmen der Suchmaschinene. Ziel des Trust-Rank Algorithmus ist es, Websites zu erkennen, die nur dazu angelegt wurden, das Ranking anderer Websites in Suchanfragen höher ausfallen zu lassen.
[6]
Erkennung von Bot-Netzen

In diesem Thema geht es um die Erkennung sogenannter Bot-Netze. Bots sind inividuelle Rechner, die z.B. durch Virusangriffe von Spammern unter Kontrolle gebracht werden und u.a. zum automatischen Spam-Versand genutzt werden.
[7],[8]
Personalisierte Spam-Filter und Multi-task Lernen.

Dieses Thema behandelt Multitask Lernen und personalisierte Spamfilter. Die Idee ist, für jeden Benutzer einen individuellen Spam-Filter zu lernen, aber gleichzeitig von der Ähnlichkeit des Spam-Filter Problems für verschiedene Nutzer zu profitieren.
[9],[10]
Adversarial Learning

Dieses Thema behandelt das Lernen in Umgebungen mit feindlichem Gegenspieler (Adversarial Learning), insbesondere im Zusammenhang mit Spam-Filtern. Spam-Versender versuchen typischerweise, die Funktionsweise von Filtern zu verstehen und aktiv Strategien zu verfolgen, um die Filterung ihrer Nachrichten zu verhindern. Diesem Problem muss beim Lernen bzw. bei der Konstruktion von Spamfiltern begegnet werden.
[11],[12]
Spam-Filterung mit Hilfe von Blacklists

Dieses Thema beschäftigt sich mit Spam-Filtern, die auf Blacklists basieren. Blacklists sind Listen von DNS Adressen, von denen aus bekannterweise viel Spam oder andere unerwünschte Nachrichten verschickt werden.
[15],[16]
Spam-Filter basierend auf Kompressionsmodellen.

Dieses Thema beschäftigt sich mit Spam-Filtern basierend auf Kompressionsmodellen. Die grundlegende Idee ist zunächst, Kompressionsmodelle für Spam und legitime Emails zu konstruieren. Zur Klassifikation einer neuen Email wird dann getestet, mit welchem der beiden Kompressionmodelle sich diese besser komprimieren lässt.
[18]
Erkennen von bösartiger Software und Viren mit Hilfe des maschinellen Lernens

Dieses Thema beschäftigt sich mit der automatischen Erkennung bösartiger Software mit Hilfe des maschinellen Lernens.
[13],[14]
Betrugserkennung in Online-Auktionen

Dieses Thema beschäftigt sich mit der Erkennung von Betrug in Online Auktionen. Dafür wird die Graphstruktur aus Benutzern und Transaktionen zwischen Benutzern analysiert.
[17]
Erkennung von Kreditkartenbetrug mit Hilfe von Hidden Markov Modellen

Dieses Thema behandelt die Erkennung von Kreditkartenbetrug anhand von verdächtigen Serien von Transaktionen. Dabei kommen z.B. Hidden Markov Modelle zum Einsatz.
[19]


Literatur

[1] T Joachims. "Learning to classify text using support vector machines" Inhaltsverzeichnis.
[2] Christian Siefkes, Fidelis Assis, Shalendra Chhabra and William Yerazunis. "Combining Winnow and Orthogonal Sparse Bigrams for Incremental Spam Filtering "Online verfügbar.
[3] Honglak Lee and Andrew Ng. "Spam Deobfuscation using a Hidden Markov Model "Online verfügbar.
[4] Jennifer Golbeck and James Hendler. "Reputation Network Analysis for Email Filtering" Online verfügbar.
[5] P. Oscar Boykin and Vwani P. Roychowdhury. "Personal Email Networks: An Effective Anti-Spam Tool". Online verfügbar.
[6] Zoltán Gyöngyi and Hector Garcia-Molina and Jan O. Pedersen. "Combating Web Spam with TrustRank". Online verfügbar.
[7] Li Zhuang and John Dunagan and Daniel R. Simon and Helen J. Wang and Ivan Osipkov and J. Doug Tygar. "Characterizing Botnets from Email Spam Records" Online verfügbar.
[8] Yinglian Xie and Fang Yu and Kannan Achan and Rina Panigrahy and Geoff Hulten and Ivan Osipkov. "Spamming botnets: signatures and characteristics." Online verfügbar.
[9] Joshua Attenberg and Kilian Weinberger and Anirban Dasgupta and John Langford and Alex J. Smola and Martin Zinkevich. "Collaborative Email Spam Filtering with Consistently Bad Labels unsing Feature Hashing". Online verfügbar.
[10] Rich Caruana. "Multitask Learning". Online verfügbar.
[11] Daniel Lowd and Christopher Meek. "Good Word Attacks on Statistical Spam Filters". Online verfügbar.
[12] Amir Globerson and Sam T. Roweis. "Nightmare at test time: robust learning by feature deletion".Online verfügbar.
[13] Konrad Rieck and Thorsten Holz and Carsten Willems and Patrick Düssel and Pavel Laskov. "Learning and Classification of Malware Behavior". Online verfügbar.
[14] Jeremy Z. Kolter and Marcus A. Maloof. "Learning to Detect Malicious Executables in the Wild". Online verfügbar.
[15] Jaeyeon Jung and Emil Sit. "An empirical study of spam traffic and the use of DNS black lists". Online verfügbar.
[16] Anirudh Ramachandran and Nick Feamster and Santosh Vempala. "Filtering spam with behavioral blacklisting". Online verfügbar.
[17] Shashank Pandit and Duen Horng Chau and Samuel Wang and Christos Faloutsos. "Netprobe: a fast and scalable system for fraud detection in online auction networks ". Online verfügbar.
[18] Andrej Bratko and Gordon V. Cormack and Bogdan Filipic and Thomas R. Lynam and Blaz Zupan. "Spam Filtering Using Statistical Data Compression Models". Online verfügbar.
[19] Abhinav Srivastava and Amlan Kundu and Shamik Sural and Arun K. Majumdar. "Credit Card Fraud Detection Using Hidden Markov Model". Online verfügbar.