Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Statystyczna analiza danych

Informacje ogólne

Kod przedmiotu: 1000-714SAD Kod Erasmus / ISCED: 11.303 / (0612) Database and network design and administration
Nazwa przedmiotu: Statystyczna analiza danych
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty monograficzne dla III - V roku informatyki
Przedmioty obieralne dla informatyki
Przedmioty obieralne stałe dla informatyki
Przedmioty obowiązkowe dla II roku bioinformatyki
Przedmioty obowiązkowe dla III roku matematyki
Punkty ECTS i inne: 6.00
zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

obowiązkowe

Skrócony opis:

Wprowadzenie podstawowych pojęć i narzędzi statystycznych takich jak estymacja i weryfikacja hipotez, a także statystycznej analizy danych, w tym klasyfikacji i klasteryzacji.

Studenci kierunku Matematyka mogą alternatywnie wybrać 1000-116bST o nieco innym charakterze.

Pełny opis:

1. Podstawowe pojęcia rachunku prawdopodobieństwa i statystyki: zmienne losowe, ich rozkłady i charakterystyki liczbowe, przestrzeń probabilistyczna,

2. Podstawowe pojęcia statystyki przestrzeń statystyczna, eksperyment losowy, statystyka, model statystyczny, miary poprawności modelu

3. Estymacja. Obciążenie i efektywność estymatora, estymatory największej wiarygodności, estymacja przedziałowa

4. Podsumowywanie, wizualizacja danych. Wykres kwantyl-kwantyl, histogram, gładki estymator funkcji gęstości, wykres pudełkowy

5. Testowanie hipotez statystycznych Pojęcie hipotezy statystycznej, zasady weryfikacji hipotez, błędy I i II rodzaju, moc testu, podstawowy lemat Neymanna-Pearsona, parametryczne testy istotności, testy istotności dla wartości średniej, test istotności dla wariancji

6. Pojęcie p-wartości i pułapki testowania hipotez. P-wartość, wielkość efektu, korekcja błędów wielokrotnego testowania

7. Przydatne testy. Testy istotności dla dwóch średnich, testowanie nieparametrycznych hipotez dla median, testy zgodności, analiza wariancji.

8. Regresja liniowa, prosta, wielokrotna i z rozszerzeniami, założenia, estymacja parametrów i ocenianie dopasowania modelu liniowego.

9. Klasyfikacja. Regresja logistyczna, LDA, QDA, KNN

10. Metody re-próbkowania. Walidacja krzyżowa, bootstrap

11. Selekcja modelu i regularyzacja. Wybór podzbioru cech predykcyjnych, korzystanie z modelu walidacyjnego i walidacji krzyżowej, dane wielkowymiarowe, regularyzacja lasso i siodłowa, metoda częściowych najmniejszych kwadratów.

12. Metody drzewiaste, drzewa decyzyjne, bagging, drzewa losowe, boosting

13. Maszyny wektorów wspierających. Hiperpłaszczyzny separujące, klasyfikator największego marginesu, klasyfikatory wektorów wspierających, maszyny wektorów wspierających.

14. Metody redukcji wymiaru. PCA

15. Uczenie bez nadzoru. Klasteryzacja, algorytmy hierarchicznego klastrowania, k-średnich.

16. Modele nieliniowe. Regresja wielomianowa, splajny, uogólnione modele addytywne.

Literatura:

Lesław Gajek, Marek Kałuszka, Wnioskowanie statystyczne, modele i metody.

John A. Rice, Mathematical Statistics and Data Analysis.

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Introduction to Statistical Learning in R.

Efekty uczenia się:

Wiedza:

1. Ma ogólna wiedzę o problemach statystycznej analizy danych.

2. Ma podstawową wiedzę w zakresie podstawowych narzędzi statystycznych stosowanych w modelowaniu i analizie danych.

3. Ma wiedzę z zakresu podstawowych metod rachunku prawdopodobieństwa i statystyki, w tym elementów teorii estymacji i testowania hipotez

Umiejętności:

1. Potrafi wykonać proste analizy i testy statystyczne.

2. Potrafi stosować techniki nowoczesnej statystycznej analizy danych.

3. Potrafi konstruować modele probabilistyczne i stosować metody statystyczne do analizy danych.

Kompetencje społeczne:

1. Umie wyjaśnić w zrozumiałym języku sens wnioskowania statystycznego.

Metody i kryteria oceniania:

Wpływ na ocenę końcową: egzamin 40%, kolokwium 20%, zadanie zaliczające 20%, aktywność na ćwiczeniach 10%, aktywność na labach 10%.

Zajęcia w cyklu "Semestr letni 2018/19" (zakończony)

Okres: 2019-02-16 - 2019-06-08
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Ewa Szczurek
Prowadzący grup: Michał Ciach, Magda Grynkiewicz, Anna Macioszek, Błażej Miasojedow, Bartosz Piotrowski, Piotr Pokarowski, Grzegorz Skoraczyński, Ewa Szczurek, Paulina Urban
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin

Zajęcia w cyklu "Semestr letni 2019/20" (jeszcze nie rozpoczęty)

Okres: 2020-02-17 - 2020-06-10
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Ćwiczenia, 15 godzin więcej informacji
Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: Ewa Szczurek
Prowadzący grup: Dorota Celińska-Kopczyńska, Michał Ciach, Anna Macioszek, Błażej Miasojedow, Piotr Pokarowski, Grzegorz Skoraczyński, Ewa Szczurek
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.