Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Data mining

Informacje ogólne

Kod przedmiotu: 1000-2M03DM
Kod Erasmus / ISCED: 11.303 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0612) Database and network design and administration Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Data mining
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty obieralne dla informatyki
Przedmioty obieralne dla Machine Learning
Przedmioty obieralne na studiach drugiego stopnia na kierunku bioinformatyka
Punkty ECTS i inne: 6.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: angielski
Kierunek podstawowy MISMaP:

informatyka
matematyka

Rodzaj przedmiotu:

monograficzne

Założenia (lista przedmiotów):

Systemy uczące się 1000-2N09SUS

Założenia (opisowo):

Rekomendujemy by osoba rejestrująca się na kurs posiadała podstawową wiedzę z zakresu metod uczenia maszynowego i przetwarzania danych.

Tryb prowadzenia:

w sali

Skrócony opis:

Przedstawienie głównych zagadnień w dziedzinie eksploracji danych (data mining) i metod ich rozwiązywania; omówienia podstawowych algorytmów i ich efektywnych realizacji na dużych zbiorach danych dla trudnych problemów takich, jak reguły asocjacyjne, redukty, dyskretyzacja atrybutów ciągłych, wzorce czasowe, drzewo decyzyjne; przedstawienie nowoczesnych technik obliczeń takich, jak równoległe przetwarzania, obliczenia ewolucyjne, heurystyki za pomocą standardowych baz danych lub logicznie zbudowanych struktur danych.

Pełny opis:

1. Wstęp: Przedstawienie problemów "eksploracji danych" (ang. data mining - DM) oraz "odkrywania wiedzy" (ang. Knowledge Discovery from Databases - KDD). Podstawowe pojęcia i zastosowania DM i KDD w praktyce.

2. Efektywne metody szukania reguł asocjacyjnych: algorytmy Apriori, AprioriTid, FP growth, ...

3. Problem klasyfikacji: Metody kNN, Naive Bayes, sieci Bayesowskie. Metody oceniania klasyfikatorów.

4. Miara entropii, Drzewo decyzyjne, Drzewo decyzyjne dla dużych zbiorów danych.

5. Metody grupowania danych, analiza skupień (klastrowanie). Metody grupowania w dużych zbiorach danych.

6. Teoria uczenia się.

7. Wzorce, klasyfikacja zbiorem reguł w dużych zbiorach danych.

8. Metody obróbki i przygotowywania danych.

9. Ukryty model Markowa i jego zastosowania w data mining.

10. Wzorce czasowe i sekwencyjne.

11. OLAP i Data mining.

12. Web mining i text mining.

Literatura:

1. "Data Mining: Concepts and Techniques". J. Han and M. Kamber. Morgan Kaufmann Publishers. 2001

2. "Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations". I. Witten and E. Frank. Morgan Kaufmann Publishers. 2000.

3. "Advances in Knowledge Discovery and Data Mining". Eds.: Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy. The MIT Press, 1995.

4. Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. 2014. Mining of Massive Datasets (2nd. ed.). Cambridge University Press, USA.

Efekty uczenia się:

Wiedza i umiejętności:

1. Zna podstawowe klasy problemów związanych z eksploracją i odkrywaniem wiedzy z danych.

2. Zna i potrafi wykorzystać w praktyce metody analizy koszykowej, rozumie działanie i potrafi stosować algorytmy wyszukiwania częstych zbiorów.

3. Zna i potrafi stosować podstawowe algorytmy ML.

4. Potrafi ewaluować skuteczność modeli ML w problemach klasyfikacji, regresji oraz grupowania.

5. Zna podstawowe techniki przetwarzania tekstów na potrzeby konstruowania modeli ML i potrafi je zastosować w praktyce.

6. Potrafi konstruować proste systemy rekomendacyjne i rozumie ich działanie.

7. Zna podstawowe metody konstruowania modeli predykcyjnych dla szeregów czasowych. Potrafi je zastosować dla rzeczywistych zbiorów danych oraz ocenić ich faktyczną skuteczność.

8. Zna najważniejsze aktualne trendy w dziedzinie uczenia maszynowego i odkrywania wiedzy z danych.

Kompetencje społeczne:

1. Potrafi przygotować raport z eksploracyjnej analizy danych przedstawiający najważniejsze informacje przy wykorzystaniu technik wizualizacji danych.

2. Potrafi zaprezentować wyniki przeprowadzonych analiz.

Metody i kryteria oceniania:

Ocena końcowa jest ustalana podstawie sumy punktów z laboratorium i egzaminu.

Dodatkowo, studenci szkoły doktorskiej mogą zaliczać przedmiot przez przygotowanie specjalnego projektu związanego z startem w międzynarodowym konkursie eksploracji danych.

Zajęcia w cyklu "Semestr letni 2023/24" (w trakcie)

Okres: 2024-02-19 - 2024-06-16
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Hung Son Nguyen
Prowadzący grup: Hung Son Nguyen
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.2.0-1 (2024-03-12)