Knowledge Discovery in Databases I im SS 2016
Aktuelles
- Klausureinsicht: Die Einsichtnahme zur Klausur wird am 30.09.2016 von 9:30 bis 11:30 Uhr im Raum 157 in der Oettingenstraße 67 stattfinden. Beachten Sie, dass nicht beliebig viele Studenten gleichzeitig Einblick erhalten können und es daher zu Wartezeiten kommen kann. Bringen Sie Ihren Studentenausweis und einen amtlichen Lichtbildausweis zur Identifikation mit.
- Merkblatt zur Klausur
- Um eine kleine Hilfestellung zur Klausurvorbereitung zu geben, wollen wir ein paar Themen vom Klausurstoff ausschließen. Dies heißt nicht, dass diese Themen nicht wichtig sind, sondern soll als Hilfsmittel zur Klausurvorbereitung dienen:
- Hierarchical/Quantitative Association Rules werden nicht benötigt
- Process Mining wird nicht benötigt
- Formeln zum EM-Clustering werden nicht benötigt
- Further Topics im Clustering-Kapitel werden nicht benötigt (Ensemble Clustering, DBSCAN-Varianten)
- Es wird keine Aufgaben zu Programmierung (z.B. mit Python) geben
- Die Further Topics aus der letzten Vorlesung (Big Data, Streams, Graph Mining) sind kein Bestandteil der Klausur
- Der Anmeldezeitraum zur Klausur wurde um eine Woche auf den 8.7.16 verlängert.
- Zur Erinnerung: Es wird keine Nachholklausur geben.
- Der Termin für die Klausur steht fest: 27. Juli 2016 von 16:00 bis 18:00 (Anmeldung erforderlich, weitere Informationen unten). To be consistent with lecture material, the exam will be held in English, answers can be given in both English and German.
- Die Übungen in der kommenden Woche (4.5./5.5./6.5.) entfallen. Das nächste erscheinende Übungsblatt wird demnach in der darauffolgenden Woche vorgerechnet.
- Pfingstdienstag ist vorlesungsfrei. Daher findet am 17.5.2016 keine VL statt.
- Die Übungen am Mittwoch und Freitag diese Woche (25.-27.5.) finden statt. Wir bitten die Studenten, die normalerweise zur Donnerstagsübung erscheinen, falls möglich auf einen der beiden anderen Tage auszuweichen.
- Die Übung am Mittwoch diese Woche (29.6.) fällt aus. Wir bitten die Studenten, die normalerweise zur Mittwochsübung erscheinen, falls möglich auf einen der beiden anderen Tage auszuweichen.
- Die Frist für die Anmeldung zur Klausur in UniWorX ist bis zum 08.07.2016 12:00 Uhr verlängert worden.
Inhalt
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
Organisation
- Umfang: 3+2 Semesterwochenstunden
- Vorlesung: Prof. Dr. Thomas Seidl
- Vorkenntnisse: Englischkenntnisse erforderlich. Empfohlene Vorkenntnisse: Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
- Anmeldung: über UniWorX
Zeit und Ort
Veranstaltung | Zeit | Ort | Beginn |
---|---|---|---|
Vorlesung | Di, 9.00 - 12.00 Uhr | Raum B 138 (Theresienstr. 39) | 12.04.2016 |
Übung |
Mi, 14.00 - 16.00 Uhr | Raum S 007 (Schellingstr. 3) |
20.04.2016 |
Übung |
Do, 14.00 - 16.00 Uhr | Raum B 106 (Hauptgebäude) |
21.04.2016 |
Übung |
Fr, 14.00 - 16.00 Uhr | Raum A 015 (Hauptgebäude) |
22.04.2016 |
Vorlesungsplan
Datum | Vorlesung | Datum | Übung |
12.04.2016 | Chapter 1: Introduction (pdf) Chapter 2: Data Representation (Part 1) pdf(04.05.16) | blatt01.pdf blatt01-sol.pdf | |
19.04.2016 | Chapter 2: Data Representation (Part 2) | 20.-22.04. | blatt02.pdf |
26.04.2016 | Chapter 3: Frequent Itemset Mining (Part 1) pdf(04.05.16) | 27.-29.04. | |
03.05.2016 | Chapter 3: Frequent Itemset Mining (Part 2) | blatt03.pdf | |
10.05.2016 | Chapter 3b: Sequential Pattern Mining pdf Chapter 4: Clustering (Part 1) pdf | 11.-13.05. | blatt04.pdf |
(entfällt wegen Pfingsten) | 18.-20.05. |
blatt05.pdf | |
24.05.2016 | Chapter 4: Clustering (Part 2) pdf | 25.-27.05. | |
31.05.2016 | Chapter 4: Clustering (Part 3) pdf | 01.-03.06. | blatt07.pdf |
07.06.2016 | Chapter 5: Outlier Detection pdf | 08.-10.06. | blatt08.pdf |
14.06.2016 | Chapter 6: Classification (Part 1) pdf | 15.-17.06. | blatt09.pdf trainingData.csv |
21.06.2016 | Chapter 6: Classification (Part 2) pdf | 22.-24.06. | blatt10.pdf blatt10-sol.pdf |
28.06.2016 | Chapter 6: Classification (Part 3) pdf Chapter 7: Numerical Prediction pdf | 29.06.-01.07. | blatt11.pdf sol11-1 ipython notebook sol11-2 |
05.07.2016 | Chapter 8: Privacy Preserving Data Mining pdf | 06.-08.07. | blatt12.pdf blatt12-sol.pdf qa-session.pdf |
12.07.2016 | Chapter 9: Further Topics in Data Mining pdf | 13.-15.07. |
Tutorial
Klausur
Die Klausur findet am Mittwoch, den 27. Juli von 16:00 bis 18:00 im LMU Hauptgebäude in den Räumen B 201 und A 240 statt. Die Raumaufteilung wird noch bekannt gegeben. Die Klausur wird auf Englisch gestellt, Antworten können sowohl auf Deutsch als auch auf Englisch gegeben werden.
Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)
Es wird keine Nachholklausur geben.
- Raumaufteilung:
- Nachname beginnt mit Buchstaben A-L: Raum B 201
- Nachname beginnt mit Buchstaben M-Z: Raum A 240
Weiterführende Informationen
KDD zum Ausprobieren
- ELKI: Environment for DeveLoping KDD-Applications Supported by Index-Structures (LMU München)
- SciKit-Learn (SciPy Erweiterung)
- Weka: Waikato Environment for Knowledge Analysis
- GNU R
- Rapidminer Community Edition
weitere Informationen
- DBS Forum bei www.die-informatiker.net
- Projektseiten im Bereich KDD
- KDNuggets - Populärer E-Newsletter zum Data Mining
- ACM SIGKDD -'Special Interest Group' der 'Association for Computing Machinery' zum Thema KDD
Vorhergehende Semester
SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00