Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Knowledge Discovery in Databases I im SS 2013

Aktuelles

  • Klausureinsicht: 19.8.2013, 10:00-11:30 s.t., Raum F109. Lichtbildausweis mitbringen!

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Organisation

  • Umfang: 3+2 Semesterwochenstunden
  • Vorlesung: Dr. Arthur Zimek
  • Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
  • Anmeldung: über UniWorX bis 31. Mai 2013
  • Übungsleitung: Erich Schubert

Zeit und Ort

Veranstaltung Zeit Ort Beginn
Vorlesung Di, 9.30 - 12.00 Uhr B U101 (Oettingenstr. 67) 16.04.2013
Übung
Fr, 12.00 - 14.00 Uhr Raum U 151 (Oettingenstr. 67)
26.04.2013
Übung
Fr, 14.00 - 16.00 Uhr Raum U 151 (Oettingenstr. 67)
26.04.2013

Vorlesungsplan

Datum Vorlesung Datum Übung
16.04.2013 Kapitel 1: Einleitung PDF - -
23.04.2013 Kapitel 2: Featureräume PDF 26.04.2013 Blatt 01
30.04.2013 Kapitel 3: Clusteranalyse Teil 1 PDF 03.05.2013 Blatt 02
07.05.2013 Kapitel 3: Clusteranalyse Teil 2 PDF 10.05.2013 Blatt 03 Datensatz
14.05.2013 Kapitel 3: Clusteranalyse Teil 3 PDF 17.05.2013 Blatt 04
21.05.2013 vorlesungsfrei 24.05.2013 Vorbesprechung Bonusprojekte
28.05.2013 Kapitel 3: Clusteranalyse Teil 3
Kapitel 4: Outlier Detection PDF
31.05.2013 Blatt 05
04.06.2013 Kapitel 4: Outlier Detection 07.06.2013 Blatt 06
11.06.2013 Kapitel 5: Klassifikation Teil 1-3 PDF 14.06.2013 Blatt 07
18.06.2013 Kapitel 5: Klassifikation Teil 4-7 PDF 21.06.2013 Blatt 08
25.06.2013 Kapitel 5: Klassifikation Teil 7
Kapitel 6: Regression PDF
28.06.2013 Blatt 09
02.07.2013 Kapitel 7: Evaluation von unsupervised Verfahren PDF 05.07.2013 Blatt 10
09.07.2013 Kapitel 8: Assoziationsregeln PDF 12.07.2013 Blatt 11
16.07.2013 Klausur (Achtung: anderer Hörsaal) 19.07.2013 entfällt

Bonusprojekte

Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)

Bereits vergebene Themen:

  • Bisecting K-Means
  • X-Means
  • Self-Organizing-Maps
  • Kernel K-Means
  • Chamaeleon
  • STING
  • Mining top-n LOF outliers
  • ODIN: in der Übung implementiert.

Abgabe:

Abgabe per E-Mail bis 9.7.2013:

  • Eigene Beschreibung des Algorithmus
  • Eigene (!) Implementierung (in ELKI, sofern nicht anders vereinbart)
  • Eigene Experimente und Unit Tests

Die Experimente sollen an sinnvoll gewählten Beispieldatensätzen zeigen

  • dass der Algorithmus (und die Implementierung) "funktioniert", d.h. dass er macht, was er machen soll (laut Quelle) und
  • wie er sich von relevanten konkurrierenden Algorithmen unterscheidet.

Die Beschreibung des Algorithmus' und Ansatzes sowie die experimentelle Auswertung fassen Sie bitte in einem (kurzen!) Bericht zusammen (Abgabe als pdf).

Außerdem möchten wir Ihre Erfahrungen und Ergebnisse mit Ihnen besprechen, bitte vereinbaren Sie dazu einen Termin mit uns. Der Termin kann vor oder nach der Abgabe liegen, jedoch bis spätestens 12.7.2013.


Tutorial

Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.

Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.

Part Files Blatt
-1 Nicht Klausurstoff: Softwareüberblick optional
01 Distanzfunktionen 01
02 Clusteranalyse Teil I 02
03 Clusteranalyse Teil II 03
04 Clusteranalyse Teil III 04
05 Clusteranalyse Teil IV 05
06 Outlier Detection 06
07 Klassifikation Teil I 07
08 Klassifikation Teil II 08
09 Klassifikation Teil III 09
10 Kernel, Regression und Evaluation 10
11 Outlier Evaluation, Apriori 11
+1 Nicht Klausurstoff: Apriori auf Netflix optional

Optional: kein Teil der Vorlesung, insbesondere nicht prüfungsrelevant:
Weiterführende Links zum breiteren Themenbereich KDD und Data Mining.
Eine Registrierung bei Google+ ist nicht notwendig.


Klausur

Klausurtermin: 16.07.2013, 8:00 (s.t.!) - 9:30 Uhr, Raum B 201 im Hauptgebäude

Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)


Weiterführende Informationen

KDD zum Ausprobieren

weitere Informationen



Vorhergehende Semester

SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

blank