Knowledge Discovery in Databases I im SS 2014
Aktuelles
- Klausureinsicht: Donnerstag 28.8.2014 10-12 Uhr Raum F109
- Merkblatt für die Klausur
- Klausur: 18.7.2014 14-16 Uhr, Theresienstraße 39, Hörsäle B 051 und B 052.
(Anmeldung per UniWorX) - Bonusprojekte: bitte anmelden!
- Aktueller ELKI-Snapshot für Bonusprojekte, Übersicht Themenvorschläge Bonusprojekte aktualisiert (neu: schnelleres hierarchisches clustering, DBCLASD).
- Die Übungen am 25.4.2014 müssen leider kurzfristig entfallen.
- Die Anmeldung per UniWorX ist möglich.
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
Organisation
- Umfang: 3+2 Semesterwochenstunden
- Vorlesung: PD Dr. Arthur Zimek
- Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
- Anmeldung: über UniWorX bis 01. Juni 2014
- Übungsleitung: Dr. Erich Schubert
- Tutor: Sebastian Hollizeck
Zeit und Ort
Veranstaltung | Zeit | Ort | Beginn |
---|---|---|---|
Vorlesung | Di, 9.30 - 12.00 Uhr | Raum B 001 (Oettingenstr. 67) | 08.04.2014 |
Übung |
Fr, 12.00 - 14.00 Uhr | Raum U 151 (Oettingenstr. 67) |
11.04.2014 |
Übung |
Fr, 14.00 - 16.00 Uhr | Raum U 151 (Oettingenstr. 67) |
11.04.2014 |
Vorlesungsplan
Datum | Vorlesung | Datum | Übung |
08.04.2014 | Kapitel 1: Einleitung PDF | 11.04.2014 | Blatt 01 |
15.04.2014 | Kapitel 2: Featureräume PDF | 18.04.2014 | entfällt (Karfreitag) |
22.04.2014 | entfällt (Osterdienstag) | 25.04.2014 | Blatt 02 Übungen entfallen!!! |
29.04.2014 | Kapitel 3: Clusteranalyse Teil 1 PDF | 02.05.2014 | Blatt 03 |
06.05.2014 | Kapitel 3: Clusteranalyse Teil 2 PDF | 09.05.2014 | Blatt 04 |
13.05.2014 | Kapitel 3: Clusteranalyse Teil 3 PDF | 16.05.2014 | Blatt 05 |
20.05.2014 | Kapitel 4: Outlier Detection PDF | 23.05.2014 | Blatt 06 |
27.05.2014 | Kapitel 5: Klassifikation Teil 1-3 PDF | 30.05.2014 | Blatt 07 |
03.06.2014 | Kapitel 5: Klassifikation Teil 4-5 PDF | 06.06.2014 | Blatt 08 |
10.06.2014 | entfällt (Pfingstdienstag) | 13.06.2014 | Blatt 09 |
17.06.2014 | Kapitel 5: Klassifikation Teil 6-7 PDF, Kapitel 6: Regression PDF | 20.06.2014 | Blatt 10 |
24.06.2014 | Kapitel 7: Evaluation von unsupervised Verfahren PDF | 27.07.2014 | Blatt 11 |
01.07.2014 | Kapitel 8: Assoziationsregeln PDF | 04.07.2014 | Blatt 12 |
08.07.2014 | Projektvorträge und Fragestunde | 11.07.2014 | keine Übungen |
Bonusprojekte
Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)
Bereits vergebene Themen:
- Multidimensional Dynamic Time Warping (Rainer Diesch)
- FINDIT (Markus Rohm)
- Self-Organizing-Maps für kategorielle Daten (Yinchong Yang)
- Distance Correlation (Marie Kiermeier)
- Fuzzy-C-Means und Fuzzy Rand Index (Christof Schramm)
- COF (Tatiana Sizova)
- x-Means (Tibor Goldschwendt)
- FOSC (Evgeniy Faerman)
Vortrag:
Stellen Sie Ihre Erkenntnisse in einem kurzen Vortrag (max. 10 Minuten) im Rahmen der Vorlesung am 08.07.2014 vor. Eventuell ergeben sich hierbei noch Fragen, die Sie für den Abschluss Ihres Projektes beachten können.
Abgabe:
Die endgültige Abgabe ihres fertigen Projektes erbitten wir per E-Mail bis spätestens 15.07.2014. Diese Abgabe soll beinhalten:
- eigene Beschreibung des Algorithmus'
- eigene (!) Implementierung (in ELKI, sofern nicht anders vereinbart)
- eigene Experimente und Unit Tests
Die Experimente sollen an sinnvoll gewählten Beispieldatensätzen zeigen
- dass der Algorithmus (und die Implementierung) "funktioniert", d.h. dass er macht, was er machen soll (laut Quelle) und
- wie er sich von relevanten konkurrierenden Algorithmen unterscheidet.
Die Beschreibung des Algorithmus' und des Ansatzes sowie die experimentelle Auswertung fassen Sie bitte in einem (kurzen!) Bericht zusammen (Abgabe als pdf).
Außerdem möchten wir Ihre Erfahrungen und Ergebnisse mit Ihnen besprechen, bitte vereinbaren Sie dazu einen Termin mit uns. Der Termin kann vor oder nach dem Vortrag oder der Abgabe liegen, jedoch bis spätestens 17.07.2014.
Tutorial
Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.
Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (Daumenkino! Das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.
Part | Files | Blatt |
01 | Distanzfunktionen | 02 |
02 | Clusteranalyse Teil I | 03 |
03 | Clusteranalyse Teil II | 04 |
04 | Clusteranalyse Teil III | 04 |
05 | Outlier Detection | 05 |
06 | Klassifikation Teil I | 06 |
07 | Klassifikation Teil II | 07 |
08 | Klassifikation Teil III | 08 |
09 | Kernel, Perceptron, Regression | 09 |
10 | Evaluation | 10 |
11 | Frequent Itemset Mining mit Apriori | 11 |
Klausur
Klausurtermin: 18.07.2014, 14-16 Uhr, Theresienstraße 39, Hörsäle B 051 und B 052.
Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)
Weiterführende Informationen
KDD zum Ausprobieren
- ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
- SciKit-Learn (SciPy Erweiterung)
- Weka: Waikato Environment for Knowledge Analysis
- GNU R
- Rapidminer Community Edition
weitere Informationen
- DBS Forum bei www.die-informatiker.net
- Projektseiten im Bereich KDD
- KDNuggets - Populärer E-Newsletter zum Data Mining
- ACM SIGKDD -'Special Interest Group' der 'Association for Computing Machinery' zum Thema KDD
Vorhergehende Semester
SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00