Knowledge Discovery in Databases I im SS 2015
Aktuelles
- Die Klausurnoten sind nun über Uniworx einsehbar. Die Klausureinsicht findet am 10.09.2015 von 10.00 bis 12.00 Uhr im Raum 156 in der Oettingenstr. 67 statt. Bitte bringen Sie Lichtbildausweis und Studentenausweis mit.
- Beachten Sie bite das Merkblatt zur Klausur.
- Bemerkung zum letzten Tutorium (#10): Die Folien zu den Assoziationsregeln sind korrekt: Die Tabelle beeinhaltet den Support für den Body.
- Die Klausuranmeldung ist nun bis 08.07.15 freigeschaltet.
- Ab Mittwoch, den 20.05.2015, wird die Mittwochsübung in den größeren Raum 2402 in der Leopoldstraße 13 (Schweinchenbau) umziehen.
- Der Klausurtermin ist: 14.07.2015, 14-16 Uhr, Hörsaal B 101, LMU Hauptgebäude.
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
Organisation
- Umfang: 3+2 Semesterwochenstunden
- Vorlesung: PD Dr. Arthur Zimek
- Vorkenntnisse: Englischkenntnisse erforderlich. Empfohlene Vorkenntnisse: Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
- Anmeldung: über UniWorX bis 01. Juni 2015
- Übungsleitung: Dr. Tobias Emrich
- Tutor: Janina Bleicher
Zeit und Ort
Veranstaltung | Zeit | Ort | Beginn |
---|---|---|---|
Vorlesung | Di, 9.30 - 12.00 Uhr | Raum M 010 (Hauptgebäude) | 14.04.2015 |
Übung |
Mi, 14.00 - 16.00 Uhr | Raum 2402 (Leopoldstraße 13 (Schweinchenbau)) |
22.04.2015 |
Übung |
Do, 14.00 - 16.00 Uhr | Raum U 151 (Oettingenstr. 67) |
23.04.2015 |
Vorlesungsplan
Datum | Vorlesung | Datum | Übung |
14.04.2015 | Kapitel 1: Einleitung (pdf) | 15.+16.04.2015 | keine Übungen |
21.04.2015 | Kapitel 2: Featureräume (pdf) | 22.+23.04.2015 | Blatt01.pdf |
28.04.2015 | Kapitel 2: Featureräume (Forts.), Kapitel 3: Clustering Teil 1 (pdf) | 29.+30.04.2015 | Blatt02.pdf |
05.05.2015 | Kapitel 3: Clustering Teil 1 (Forts.) | 06.+07.05.2015 | Blatt03.pdf Materialien zu 3-2 |
12.05.2015 | Kapitel 3: Clustering Teil 1 (Forts.) Kapitel 3: Clustering Teil 2 (pdf) | 13.05.2015 (14.05.2015 entfällt) | Blatt04.pdf |
19.05.2015 | Kapitel 3: Clustering Teil 2 (Forts.) Kapitel 3: Clustering Teil 3 (pdf) | 20.+21.05.2015 | Blatt05.pdf |
26.05.2015 | entfällt (Pfingstferien) | 27.+28.05.2015 | Blatt06.pdf |
02.06.2015 | Kapitel 4: Outlier Detection (pdf) | 03.06.2015 (04.06.2015 entfällt) | Blatt07.pdf |
09.06.2015 | Kapitel 7: Evaluation von unsupervised Verfahren (pdf) | 10.+11.06.2015 | Blatt08.pdf |
16.06.2015 | Kapitel 5: Klassifikation Teil 1-3 (pdf) | 17.+18.06.2015 | Blatt09.pdf |
23.06.2015 | Kapitel 5: Klassifikation Teil 4-5 (pdf) | 24.+25.07.2015 | Blatt10.pdf |
30.06.2015 | Kapitel 5: Klassifikation Teil 6-7 (pdf) | 01.+02.07.2015 | Blatt11.pdf |
07.07.2015 | Kapitel 6: Regression (pdf) Kapitel 8: Assoziationsregeln (pdf) | 08.+09.07.2015 | Blatt12.pdf |
14.07.2015 | Klausur (14-16 Uhr) | 15.+16.07.2015 | entfällt |
Experimente
Datensätze:
- iris (siehe auch: UCI ML Archive, Wikipedia)
- ALOI: original dataset with description different feature representations in ELKI format
Synthetische Datensätze (Clustering/Outlier Detection):
- 3 clusters and noise (2d)
- mouse (2d)
- vary density (2d)
- 4 Gaussians (2d)
- density (2d, XML-Spezifikation)
- 6 Gaussians (4d)
Tutorial
Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.
Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (Daumenkino! Das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.
Part | Files | Blatt |
01 | Distanzfunktionen | 02 |
02 | Clusteranalyse Teil I | 04 |
03 | Clusteranalyse Teil II | 05 |
04 | Clusteranalyse Teil III | 06 |
05 | Clusteranalyse Teil IV | 07 |
06 | Outlier Detection | 08 |
07 | Evaluation | 09 |
08 | Klassifikation Teil I | 10 |
09 | Klassifikation Teil II | 11 |
10 | Frequent Itemset Mining mit Apriori, Kernel, Perceptron, Regression | 12 |
Klausur
Klausurtermin: 14.07.2015, 14-16 Uhr, Hörsaal B 101, LMU Hauptgebäude.
Es wird keine Nachholklausur geben.
Weiterführende Informationen
KDD zum Ausprobieren
- ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
- SciKit-Learn (SciPy Erweiterung)
- Weka: Waikato Environment for Knowledge Analysis
- GNU R
- Rapidminer Community Edition
weitere Informationen
- DBS Forum bei www.die-informatiker.net
- Projektseiten im Bereich KDD
- KDNuggets - Populärer E-Newsletter zum Data Mining
- ACM SIGKDD -'Special Interest Group' der 'Association for Computing Machinery' zum Thema KDD
Vorhergehende Semester
SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00