Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Knowledge Discovery in Databases I im SS 2015

Aktuelles

  • Die Klausurnoten sind nun über Uniworx einsehbar. Die Klausureinsicht findet am 10.09.2015 von 10.00 bis 12.00 Uhr im Raum 156 in der Oettingenstr. 67 statt. Bitte bringen Sie Lichtbildausweis und Studentenausweis mit.
  • Beachten Sie bite das Merkblatt zur Klausur.
  • Bemerkung zum letzten Tutorium (#10): Die Folien zu den Assoziationsregeln sind korrekt: Die Tabelle beeinhaltet den Support für den Body.
  • Die Klausuranmeldung ist nun bis 08.07.15 freigeschaltet.
  • Ab Mittwoch, den 20.05.2015, wird die Mittwochsübung in den größeren Raum 2402 in der Leopoldstraße 13 (Schweinchenbau) umziehen.
  • Der Klausurtermin ist: 14.07.2015, 14-16 Uhr, Hörsaal B 101, LMU Hauptgebäude.

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Organisation

  • Umfang: 3+2 Semesterwochenstunden
  • Vorlesung: PD Dr. Arthur Zimek
  • Vorkenntnisse: Englischkenntnisse erforderlich. Empfohlene Vorkenntnisse: Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
  • Anmeldung: über UniWorX bis 01. Juni 2015
  • Übungsleitung: Dr. Tobias Emrich
  • Tutor: Janina Bleicher

Zeit und Ort

Veranstaltung Zeit Ort Beginn
Vorlesung Di, 9.30 - 12.00 Uhr Raum M 010 (Hauptgebäude) 14.04.2015
Übung
Mi, 14.00 - 16.00 Uhr Raum 2402 (Leopoldstraße 13 (Schweinchenbau))
22.04.2015
Übung
Do, 14.00 - 16.00 Uhr Raum U 151 (Oettingenstr. 67)
23.04.2015

Vorlesungsplan

Datum Vorlesung Datum Übung
14.04.2015 Kapitel 1: Einleitung (pdf) 15.+16.04.2015 keine Übungen
21.04.2015 Kapitel 2: Featureräume (pdf) 22.+23.04.2015 Blatt01.pdf
28.04.2015 Kapitel 2: Featureräume (Forts.),
Kapitel 3: Clustering Teil 1 (pdf)
29.+30.04.2015 Blatt02.pdf
05.05.2015 Kapitel 3: Clustering Teil 1 (Forts.) 06.+07.05.2015 Blatt03.pdf
Materialien zu 3-2
12.05.2015 Kapitel 3: Clustering Teil 1 (Forts.)
Kapitel 3: Clustering Teil 2 (pdf)
13.05.2015
(14.05.2015 entfällt)
Blatt04.pdf
19.05.2015 Kapitel 3: Clustering Teil 2 (Forts.)
Kapitel 3: Clustering Teil 3 (pdf)
20.+21.05.2015 Blatt05.pdf
26.05.2015 entfällt (Pfingstferien) 27.+28.05.2015 Blatt06.pdf
02.06.2015 Kapitel 4: Outlier Detection (pdf) 03.06.2015
(04.06.2015 entfällt)
Blatt07.pdf
09.06.2015 Kapitel 7: Evaluation von unsupervised Verfahren (pdf) 10.+11.06.2015 Blatt08.pdf
16.06.2015 Kapitel 5: Klassifikation Teil 1-3 (pdf) 17.+18.06.2015 Blatt09.pdf
23.06.2015 Kapitel 5: Klassifikation Teil 4-5 (pdf) 24.+25.07.2015 Blatt10.pdf
30.06.2015 Kapitel 5: Klassifikation Teil 6-7 (pdf) 01.+02.07.2015 Blatt11.pdf
07.07.2015 Kapitel 6: Regression (pdf)
Kapitel 8: Assoziationsregeln (pdf)
08.+09.07.2015 Blatt12.pdf
14.07.2015 Klausur (14-16 Uhr) 15.+16.07.2015 entfällt

Experimente

Datensätze:

Synthetische Datensätze (Clustering/Outlier Detection):


Tutorial

Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.

Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (Daumenkino! Das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.

Part Files Blatt
01 Distanzfunktionen 02
02 Clusteranalyse Teil I 04
03 Clusteranalyse Teil II 05
04 Clusteranalyse Teil III 06
05 Clusteranalyse Teil IV 07
06 Outlier Detection 08
07 Evaluation 09
08 Klassifikation Teil I 10
09 Klassifikation Teil II 11
10 Frequent Itemset Mining mit Apriori, Kernel, Perceptron, Regression 12

Klausur

Klausurtermin: 14.07.2015, 14-16 Uhr, Hörsaal B 101, LMU Hauptgebäude.

Es wird keine Nachholklausur geben.


Weiterführende Informationen

KDD zum Ausprobieren

weitere Informationen



Vorhergehende Semester

SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

blank