Knowledge Discovery in Databases I im SS 2013
Aktuelles
- Klausureinsicht: 19.8.2013, 10:00-11:30 s.t., Raum F109. Lichtbildausweis mitbringen!
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
Organisation
- Umfang: 3+2 Semesterwochenstunden
- Vorlesung: Dr. Arthur Zimek
- Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
- Anmeldung: über UniWorX bis 31. Mai 2013
- Übungsleitung: Erich Schubert
Zeit und Ort
Veranstaltung | Zeit | Ort | Beginn |
---|---|---|---|
Vorlesung | Di, 9.30 - 12.00 Uhr | B U101 (Oettingenstr. 67) | 16.04.2013 |
Übung |
Fr, 12.00 - 14.00 Uhr | Raum U 151 (Oettingenstr. 67) |
26.04.2013 |
Übung |
Fr, 14.00 - 16.00 Uhr | Raum U 151 (Oettingenstr. 67) |
26.04.2013 |
Vorlesungsplan
Datum | Vorlesung | Datum | Übung |
16.04.2013 | Kapitel 1: Einleitung PDF | - | - |
23.04.2013 | Kapitel 2: Featureräume PDF | 26.04.2013 | Blatt 01 |
30.04.2013 | Kapitel 3: Clusteranalyse Teil 1 PDF | 03.05.2013 | Blatt 02 |
07.05.2013 | Kapitel 3: Clusteranalyse Teil 2 PDF | 10.05.2013 | Blatt 03 Datensatz |
14.05.2013 | Kapitel 3: Clusteranalyse Teil 3 PDF | 17.05.2013 | Blatt 04 |
21.05.2013 | vorlesungsfrei | 24.05.2013 | Vorbesprechung Bonusprojekte |
28.05.2013 | Kapitel 3: Clusteranalyse Teil 3 Kapitel 4: Outlier Detection PDF | 31.05.2013 | Blatt 05 |
04.06.2013 | Kapitel 4: Outlier Detection | 07.06.2013 | Blatt 06 |
11.06.2013 | Kapitel 5: Klassifikation Teil 1-3 PDF | 14.06.2013 | Blatt 07 |
18.06.2013 | Kapitel 5: Klassifikation Teil 4-7 PDF | 21.06.2013 | Blatt 08 |
25.06.2013 | Kapitel 5: Klassifikation Teil 7 Kapitel 6: Regression PDF | 28.06.2013 | Blatt 09 |
02.07.2013 | Kapitel 7: Evaluation von unsupervised Verfahren PDF | 05.07.2013 | Blatt 10 |
09.07.2013 | Kapitel 8: Assoziationsregeln PDF | 12.07.2013 | Blatt 11 |
16.07.2013 | Klausur (Achtung: anderer Hörsaal) | 19.07.2013 | entfällt |
Bonusprojekte
Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)
Bereits vergebene Themen:
- Bisecting K-Means
- X-Means
- Self-Organizing-Maps
- Kernel K-Means
- Chamaeleon
- STING
- Mining top-n LOF outliers
- ODIN: in der Übung implementiert.
Abgabe:
Abgabe per E-Mail bis 9.7.2013:
- Eigene Beschreibung des Algorithmus
- Eigene (!) Implementierung (in ELKI, sofern nicht anders vereinbart)
- Eigene Experimente und Unit Tests
Die Experimente sollen an sinnvoll gewählten Beispieldatensätzen zeigen
- dass der Algorithmus (und die Implementierung) "funktioniert", d.h. dass er macht, was er machen soll (laut Quelle) und
- wie er sich von relevanten konkurrierenden Algorithmen unterscheidet.
Die Beschreibung des Algorithmus' und Ansatzes sowie die experimentelle Auswertung fassen Sie bitte in einem (kurzen!) Bericht zusammen (Abgabe als pdf).
Außerdem möchten wir Ihre Erfahrungen und Ergebnisse mit Ihnen besprechen, bitte vereinbaren Sie dazu einen Termin mit uns. Der Termin kann vor oder nach der Abgabe liegen, jedoch bis spätestens 12.7.2013.
Tutorial
Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.
Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.
Part | Files | Blatt |
-1 | Nicht Klausurstoff: Softwareüberblick | optional |
01 | Distanzfunktionen | 01 |
02 | Clusteranalyse Teil I | 02 |
03 | Clusteranalyse Teil II | 03 |
04 | Clusteranalyse Teil III | 04 |
05 | Clusteranalyse Teil IV | 05 |
06 | Outlier Detection | 06 |
07 | Klassifikation Teil I | 07 |
08 | Klassifikation Teil II | 08 |
09 | Klassifikation Teil III | 09 |
10 | Kernel, Regression und Evaluation | 10 |
11 | Outlier Evaluation, Apriori | 11 |
+1 | Nicht Klausurstoff: Apriori auf Netflix | optional |
Optional: kein Teil der Vorlesung, insbesondere nicht prüfungsrelevant:
Weiterführende Links zum breiteren Themenbereich KDD und Data Mining.
Eine Registrierung bei Google+ ist nicht notwendig.
Klausur
Klausurtermin: 16.07.2013, 8:00 (s.t.!) - 9:30 Uhr, Raum B 201 im Hauptgebäude
Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)
Weiterführende Informationen
KDD zum Ausprobieren
- ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
- Weka: Waikato Environment for Knowledge Analysis
- GNU R
- Rapid Miner (früher YALE)
weitere Informationen
- DBS Forum bei www.die-informatiker.net
- Projektseiten im Bereich KDD
- KDNuggets - Populärer E-Newsletter zum Data Mining
- ACM SIGKDD -'Special Interest Group' der 'Association for Computing Machinery' zum Thema KDD
Vorhergehende Semester
SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00