Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Knowledge Discovery in Databases I im SS 2016

Aktuelles

  • Klausureinsicht: Die Einsichtnahme zur Klausur wird am 30.09.2016 von 9:30 bis 11:30 Uhr im Raum 157 in der Oettingenstraße 67 stattfinden. Beachten Sie, dass nicht beliebig viele Studenten gleichzeitig Einblick erhalten können und es daher zu Wartezeiten kommen kann. Bringen Sie Ihren Studentenausweis und einen amtlichen Lichtbildausweis zur Identifikation mit.
  • Merkblatt zur Klausur
  • Um eine kleine Hilfestellung zur Klausurvorbereitung zu geben, wollen wir ein paar Themen vom Klausurstoff ausschließen. Dies heißt nicht, dass diese Themen nicht wichtig sind, sondern soll als Hilfsmittel zur Klausurvorbereitung dienen:
    • Hierarchical/Quantitative Association Rules werden nicht benötigt
    • Process Mining wird nicht benötigt
    • Formeln zum EM-Clustering werden nicht benötigt
    • Further Topics im Clustering-Kapitel werden nicht benötigt (Ensemble Clustering, DBSCAN-Varianten)
    • Es wird keine Aufgaben zu Programmierung (z.B. mit Python) geben
    • Die Further Topics aus der letzten Vorlesung (Big Data, Streams, Graph Mining) sind kein Bestandteil der Klausur
  • Der Anmeldezeitraum zur Klausur wurde um eine Woche auf den 8.7.16 verlängert.
  • Zur Erinnerung: Es wird keine Nachholklausur geben.
  • Der Termin für die Klausur steht fest: 27. Juli 2016 von 16:00 bis 18:00 (Anmeldung erforderlich, weitere Informationen unten). To be consistent with lecture material, the exam will be held in English, answers can be given in both English and German.
  • Die Übungen in der kommenden Woche (4.5./5.5./6.5.) entfallen. Das nächste erscheinende Übungsblatt wird demnach in der darauffolgenden Woche vorgerechnet.
  • Pfingstdienstag ist vorlesungsfrei. Daher findet am 17.5.2016 keine VL statt.
  • Die Übungen am Mittwoch und Freitag diese Woche (25.-27.5.) finden statt. Wir bitten die Studenten, die normalerweise zur Donnerstagsübung erscheinen, falls möglich auf einen der beiden anderen Tage auszuweichen.
  • Die Übung am Mittwoch diese Woche (29.6.) fällt aus. Wir bitten die Studenten, die normalerweise zur Mittwochsübung erscheinen, falls möglich auf einen der beiden anderen Tage auszuweichen.
  • Die Frist für die Anmeldung zur Klausur in UniWorX ist bis zum 08.07.2016 12:00 Uhr verlängert worden.

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Organisation

  • Umfang: 3+2 Semesterwochenstunden
  • Vorlesung: Prof. Dr. Thomas Seidl
  • Vorkenntnisse: Englischkenntnisse erforderlich. Empfohlene Vorkenntnisse: Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen

Zeit und Ort

Veranstaltung Zeit Ort Beginn
Vorlesung Di, 9.00 - 12.00 Uhr Raum B 138 (Theresienstr. 39) 12.04.2016
Übung
Mi, 14.00 - 16.00 Uhr Raum S 007 (Schellingstr. 3)
20.04.2016
Übung
Do, 14.00 - 16.00 Uhr Raum B 106 (Hauptgebäude)
21.04.2016
Übung
Fr, 14.00 - 16.00 Uhr Raum A 015 (Hauptgebäude)
22.04.2016

Vorlesungsplan

Datum Vorlesung Datum Übung
12.04.2016 Chapter 1: Introduction (pdf)
Chapter 2: Data Representation (Part 1) pdf(04.05.16)
blatt01.pdf
blatt01-sol.pdf
19.04.2016 Chapter 2: Data Representation (Part 2) 20.-22.04. blatt02.pdf

ipython notebook solution

26.04.2016 Chapter 3: Frequent Itemset Mining (Part 1) pdf(04.05.16) 27.-29.04.
03.05.2016 Chapter 3: Frequent Itemset Mining (Part 2) 04.-06.05. blatt03.pdf

blatt03_sol.pdf

10.05.2016 Chapter 3b: Sequential Pattern Mining pdf
Chapter 4: Clustering (Part 1) pdf
11.-13.05. blatt04.pdf

blatt04_sol.pdf

17.05.2016 (entfällt wegen Pfingsten) 18.-20.05.

blatt05.pdf
75000-out1.csv
goods_description.csv
blobs.csv
mouse.csv

5-1-solution.pdf
5.2-5.3-solution

24.05.2016 Chapter 4: Clustering (Part 2) pdf 25.-27.05.

blatt06.pdf
blatt06-sol.pdf
em_solution.ipynb

31.05.2016 Chapter 4: Clustering (Part 3) pdf 01.-03.06. blatt07.pdf

sol7-1.pdf
sol7-2.pdf
sol7-3.pdf

07.06.2016 Chapter 5: Outlier Detection pdf 08.-10.06. blatt08.pdf

blatt08-sol.pdf
Solution 8-4

14.06.2016 Chapter 6: Classification (Part 1) pdf 15.-17.06. blatt09.pdf

trainingData.csv
testData.csv
blatt09-sol.pdf
ldr_solution.ipynb

21.06.2016 Chapter 6: Classification (Part 2) pdf 22.-24.06. blatt10.pdf
blatt10-sol.pdf
28.06.2016 Chapter 6: Classification (Part 3) pdf
Chapter 7: Numerical Prediction pdf
29.06.-01.07. blatt11.pdf
sol11-1
ipython notebook sol11-2
05.07.2016 Chapter 8: Privacy Preserving Data Mining pdf 06.-08.07. blatt12.pdf
blatt12-sol.pdf
qa-session.pdf
12.07.2016 Chapter 9: Further Topics in Data Mining pdf 13.-15.07.

Tutorial


Klausur

Die Klausur findet am Mittwoch, den 27. Juli von 16:00 bis 18:00 im LMU Hauptgebäude in den Räumen B 201 und A 240 statt. Die Raumaufteilung wird noch bekannt gegeben. Die Klausur wird auf Englisch gestellt, Antworten können sowohl auf Deutsch als auch auf Englisch gegeben werden.

Eine Klausuranmeldung in UniWorX ist zur Teilnahme erforderlich: Anmeldung zur Klausur (UniWorX)

Es wird keine Nachholklausur geben.

  • Raumaufteilung:
    • Nachname beginnt mit Buchstaben A-L: Raum B 201
    • Nachname beginnt mit Buchstaben M-Z: Raum A 240

Weiterführende Informationen

KDD zum Ausprobieren

weitere Informationen



Vorhergehende Semester

SS 15, SS 14, SS 13, SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

blank