Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Statystyka wielowymiarowa

Informacje ogólne

Kod przedmiotu: 1000-135SW Kod Erasmus / ISCED: 11.1 / (0541) Matematyka
Nazwa przedmiotu: Statystyka wielowymiarowa
Jednostka: Wydział Matematyki, Informatyki i Mechaniki
Grupy: Przedmioty fakultatywne dla studiów 2 stopnia na matematyce
Przedmioty fakultatywne na matematyce
Punkty ECTS i inne: 6.00
zobacz reguły punktacji
Język prowadzenia: angielski
Rodzaj przedmiotu:

fakultatywne

Skrócony opis:

Wykład będzie poświęcony eksploracyjnej analizie danych i predykcji statystycznej.

W pierwszej części omówione będą współczesne metody statystycznej analizy danych wielowymiarowych: streszczenia danych (miary położenia, rozrzutu i zależności między cechami), estymacja gęstości, redukcja wymiaru i klasteryzacja. Drugim tematem będzie predykcja statystyczna, czyli prognozowanie wartości cechy nieobserwowanej na podstawie cech obserwowanych. Przedstawione będą zarówno modele predykcji cechy ciągłej, nazywane tradycyjnie regresją jak również cechy dyskretnej - klasyfikacja lub alokacja. Zajęcia w laboratorium będą poświęcone wykorzystaniu pakietu "R" do analizy i wizualizacji danych oraz implementacji i porównywania algorytmów predykcji.

Pełny opis:

P R O G R A M

Wstęp

* Co to jest "statystyczna" analiza danych?

* Czy dane są próbą z populacji?

* Jaki jest problem obliczeniowy dla populacji?

Literatura:

1. J. Koronacki i J. Mielniczuk, Statystyka, WNT 2001.

2. J. Koronacki i J. Ćwik, Statystyczne systemy uczące się, WNT 2005.

Efekty uczenia się:

Wiedza i imiejętności

1.Wie, co to są miary położenia, rozrzutu, zależności i bliskości między zmiennymi losowymi. Umie streścić informację o rozkładzie jednowymiarym i zaprogramować to w środowisku do obliczeń statystycznych R.

2.Wie, co to jest i zna podstawowe własności histogramu i estymatora jądrowego gęstości prawdopodobieństwa. Umie tego używać – obliczać i rysować estymatory gęstości jedno- i dwuwymiarowych w R.

3.Rozumie analizę składowych głównych, zna podstawowe charakteryzacje rozkładu spektralnego macierzy kowariancji. Wie jaki ma ona związek z rozkładem na wartości szczególne (SVD) macierzy danych. Umie policzyć rozkład SVD i przedstawić dane na płaszczyźnie dwóch pierwszych składowych głównych. Umie policzyć istotność redukcji całkowitej wariancji danych do k-głównych składowych.

4.Rozumie inne metody redukcji wymiaru danych: skalowanie wielowymiarowe i analizę odpowiedniości (correspondence analysis). Umie to policzyć i przedstawić graficznie w R.

5.Rozumie algorytmy klasteryzacji k-średnich i k-medoidów, umie je wyprowadzić jako zachłanne rozwiązania problemów optymalizacyjnych. Wie, co to jest separowalność - podstawowa ocena istotności podziału danych na k-częsci. Zna metody klasteryzacji aglomeracyjnej. Umie klasteryzować dane w R.

6.Zna podstawowe własności wielowymiarowego rozkładu normalnego. Umie wyprowadzić wzory na estymatory największej wiarygodności dla parametrów tego rozkładu.

7.Rozumie zwiazek optymalnej i bayesowskiej reguły klasyfikacyjnej. Umie wyprowadzić wzory na estymator bajesowskiej reguły klasyfikacyjnej w modelu normalnym. Rozumie estymację błędu klasyfikacji za pomocą kroswalidacji k-krotnej.

8.Wie, co to jest model liniowy. Zna wzory na estymatory najmniejszych kwadratów dla parametrów tego modelu. Umie je wyprowadzić z zasady największej wiarygodności oraz, alternatywnie, przy pomocy rozkładu QR macierzy planu eksperymentu. Umie policzyć streszczenie modelu liniowego w R.

9.Wie, co to jest test ilorazu wiarygodności (LR) . Umie wyprowadzić wzór na LR dla hipotez liniowych w modelu liniowym. Umie policzyć statystykę testową i jej p-wartość w R.

10.Zna residua obserwacji - zwykłe, studentyzowane i kroswalidacyjne. Umie za ich pomocą sprawdzać założenie normalności błędu i szukać obserwacji odstających. Zna główne kryteria informacyjne.

11.Umie budować modele liniowe dla empirycznych danych za pomocą środowiska R.

12.Wie, co to jest uogólniony model liniowy. Rozumie algorytm estymacji jego parametrów za pomocą metody największej wiarygodności. Umie budować uogólnione modele liniowe w R.

Kompetencje społeczne

Rozumie główne metody statystycznej analizy danych. Umie wykonać rutynową analizę w R.

Może analizować dane i budować proste modele we współpracy z przyrodnikiem, inżynierem czy ekonomistą.

Zajęcia w cyklu "Semestr zimowy 2019/20" (zakończony)

Okres: 2019-10-01 - 2020-01-27
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: John Noble
Prowadzący grup: John Noble
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin

Zajęcia w cyklu "Semestr zimowy 2020/21" (jeszcze nie rozpoczęty)

Okres: 2020-10-01 - 2021-01-27
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 30 godzin więcej informacji
Wykład, 30 godzin więcej informacji
Koordynatorzy: John Noble
Prowadzący grup: John Noble
Lista studentów: (nie masz dostępu)
Zaliczenie: Egzamin
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.