Knowledge Discovery in Databases I im SS 2012
Aktuelles
- Klausurergebnisse sind in UniWorX
- Klausureinsicht: Montag 14-15, 23.07.2012 Raum 156 Oettingenstr.
Mittwoch 13-14, 25.07.2012 Raum 156 Oettingenstr. - Voraussichtlich wird es keine Nachholklausur geben! Sie können die Vorlesung im SS2013 wiederholen.
- Merkblatt zur Klausur
- Klausur: am Samstag 14.7.2012, 14-16h, Geschwister-Scholl-Platz (Hauptgebäude LMU), Hörsaal B101.
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assozationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
Organisation
- Umfang: 3+2 Semesterwochenstunden
- Vorlesung: Dr. Eirini Ntoutsi
- Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Index- und Speicherungsstrukturen
- Anmeldung: über UniWorX bis 21. Mai 2012
- Übungsleitung: Erich Schubert
- Tutoren:
Zeit und Ort
Veranstaltung | Zeit | Ort | Beginn |
---|---|---|---|
Vorlesung | Di, 9.00 - 12.00 Uhr | B U101 (Oettingenstr. 67) | 17.04.2012 |
Übung |
Do, 14.00 - 16.00 Uhr | Raum 057 (Oettingenstr. 67) |
26.04.2012 |
Übung |
Do, 16.00 - 18.00 Uhr | Raum B U101 (Oettingenstr. 67) |
26.04.2012 |
Vorlesungsplan
Datum | Vorlesung | Datum | Übung |
17.04.2012 | Lecture 1: Introduction PDF | - | - |
24.04.2012 | Lecture 2: Data preprocessing / Feature spaces PDF (updated 17.7.2012, corrected definition in slide 22) | 26.04.2012 | Blatt 01 PDF |
01.05.2012 | entfällt (Feiertag) | 03.05.2012 | entfällt |
08.05.2012 | Lecture 3: Association Rules and Frequent Itemsets Mining PDF (updated:08.05.2012) | 10.05.2012 | Blatt 02 PDF |
15.05.2012 | Lecture 4: Classification PDF (updated:15.05.2012) | 17.05.2012 (Feiertag) | Blatt 03 PDF (Übung entfällt) |
22.05.2012 | Lecture 5: Classification PDF (updated:22.05.2012) | 24.05.2012 | Blatt 04 PDF |
29.05.2012 | entfällt | 31.05.2012 | Besprechung Blatt 3+4 |
05.06.2012 | Lecture 6: Classification PDF (updated:05.06.2012) | 07.06.2012 (Feiertag) | Blatt 05 PDF (Übung entfällt) |
12.06.2012 | Lecture 7: Clustering PDF (updated 12.06.2012) | 14.06.2012 | Blatt 06 PDF |
19.06.2012 | Lecture 8: Clustering PDF (updated 17.7.2012, corrected figures in slide 28) | 21.06.2012 | Blatt 07 PDF |
26.06.2012 | Lecture 9: Clustering PDF | 28.06.2012 | Blatt 08 PDF |
03.07.2012 | Lecture 10: Outlier Detection PDF (updated 5.7.2012) | 05.07.2012 | Blatt 09 PDF |
10.07.2012 | Q&A PDF | 12.07.2012 | Q&A |
14.07.2012 | Klausur (Exam) | ||
17.07.2012 | Klausur solutions |
Tutorial
The tutorial material is not completely online. You should attend the tutorials (and ask questions there!). Plus, not everything is on the slides, but many things are given orally!
This material is not for printing but for in-class presentation.
Some of the slides are highly redundant, please save the trees.
Part | Files | Blatt |
01 | Tools Session | 01 |
02 | Apriori Session StackOverflow Tutorial SO FIM data - try yourself! | 02 |
03 | Distances Session | 03 |
04 | Classification Sessions | 03-06 |
05 | Clustering Session: DBSCAN Clustering Session: EM | 07-08 |
06 | Outlier Detection | 09 |
Klausur (Exam)
The exam is scheduled for 14/07/2012 from 14:00 to 16:00 in the lecture hall B 101 in the main building.
Weiterführende Informationen
KDD zum Ausprobieren
- ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
- Weka 3: Data Mining Software in Java
- R
- Rapid Miner (früher YALE)
weitere Informationen
- DBS Forum bei www.die-informatiker.net
- Projektseiten im Bereich KDD
- KDNuggets - Populärer E-Newsletter zum Data Mining
- ACM SIGKDD -'Special Interest Group' der 'Association for Computing Machinery' zum Thema KDD
Vorhergehende Semester
SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00