University of Warsaw - Central Authentication System
Strona główna

(in Polish) Uczenie maszynowe

General data

Course ID: 1000-1L24UM
Erasmus code / ISCED: 11.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0541) Mathematics The ISCED (International Standard Classification of Education) code has been designed by UNESCO.
Course title: (unknown)
Name in Polish: Uczenie maszynowe
Organizational unit: Faculty of Mathematics, Informatics, and Mechanics
Course groups: Proseminars for Mathematics
ECTS credit allocation (and other scores): 2.00 Basic information on ECTS credits allocation principles:
  • the annual hourly workload of the student’s work required to achieve the expected learning outcomes for a given stage is 1500-1800h, corresponding to 60 ECTS;
  • the student’s weekly hourly workload is 45 h;
  • 1 ECTS point corresponds to 25-30 hours of student work needed to achieve the assumed learning outcomes;
  • weekly student workload necessary to achieve the assumed learning outcomes allows to obtain 1.5 ECTS;
  • work required to pass the course, which has been assigned 3 ECTS, constitutes 10% of the semester student load.

view allocation of credits
Language: Polish
Type of course:

proseminars

Short description: (in Polish)

Proseminarium będzie poświęcone głębokim sieciom neuronowym. Głównymi obiektami badań w tej dziedzinie są: sieć, funkcja straty oraz metoda optymalizacji. Sieć to funkcja wektorowa będąca złożeniem wielu prostszych przekształceń, czyli warstw – liczba warstw to głębokość sieci. Wartość sieci zależy od wektora argumentów oraz dodatkowo od wektora parametrów. Nieujemna funkcja straty określa błąd dopasowania parametrów sieci do danych uczących. Argumentami funkcji straty są parametry sieci, a parametrami dane uczące. Z kolei metoda optymalizacji to algorytm służący do poszukiwania lokalnego minimum funkcji straty uśrednionej na danych. Minimalizację średniej funkcji straty nazywa się “uczeniem” lub “trenowaniem” sieci.

Full description: (in Polish)

Sieci neuronowe mają wiele różnych zastosowań: mogą tłumaczyć teksty, grać w gry, rozpoznawać mowę lub interpretować obraz z kamery robota. Na naszych zajęciach skoncentrujemy się na sieciach generatywnych – Generative AI, krócej GenAI – czyli sieciach służących do tworzenia nowych treści przypominających dane uczące, np. twarze, wiersze, muzykę czy warunki zewnętrzne, w których będzie działał robot.

Projektowanie generatywnych sieci neuronowych wymaga wiedzy i umiejętności matematycznych z różnych dziedzin. W szczególności popularne sieci w swoim domyślnym trybie działania generują obiekty startując z szumu, czyli obserwacji pochodzącej z wielowymiarowego rozkładu normalnego. Warto więc umieć rachować na rozkładach prawdopodobieństwa. Z kolei minimalizacja średniej funkcji straty wymaga zrozumienia algorytmów automatycznego różniczkowania i stochastycznego spadku po gradiencie. Ponadto – w zależności od sieci – potrzebna jest dodatkowa wiedza. I tak:

  • Generative Adversarial Networks (GAN) generują obiekty w jednym kroku za pomocą “generatora”, ale w procesie uczenia potrzebują dodatkowej podsieci – “dyskryminatora”. Generator i dyskryminator aktualizują swoje parametry rywalizując ze sobą jak fałszerze pieniędzy z policją. Zrozumienie budowy i działania GANów oraz wyprowadzenie funkcji straty jest oparte na prostszym modelu logistycznym i kryterium minimaksowym. GANy wprowadzono w pracy [2], a ich nowa wersja została zaimplementowana przez NVIDIA’ę w programie styleGAN2.
  • Denoising Diffusion (DD) generują treści w wielu krokach odfiltrowując szum stopniowo. Są to ciągi wielowymiarowych rozkładów normalnych, których parametry (wektory wartości oczekiwanych i macierze kowariancji) zadane są przez głębokie sieci neuronowe. Zrozumienie DD wymaga szacowania całek, ponieważ zamiast pierwotnej funkcji straty minimalizuje się jej górne oszacowanie w postaci wartości oczekiwanej po dodatkowych zmiennych. Metoda została wprowadzona w [3] i jest zaimplementowana w popularnych programach do generowania obrazów: DALL-E 3, Imagen oraz Stable Diffusion.
  • Continuous Normalizing Flows to sieci z dużą liczbą warstw, w których przejście z warstwy do warstwy modelowane jest za pomocą równania różniczkowego zwyczajnego podobnie jak przepływ płynu. Takie sieci generują nowe treści rozwiązując numerycznie równanie z warunkiem początkowym wygenerowanym z rozkładu normalnego. Nowa wersja metody została opisana w [4] i jest dostępna jako Stable Diffusion 3.

GenAI jest szczególnie atrakcyjna dla matematyków: techniki programowania tracą na znaczeniu w miarę rozwoju chatbotów pomagających w pisaniu kodu (np. GitHub Copilot), natomiast zyskują wiedza i umiejętności oparte na analizie matematycznej.

Zdecydowanie rekomendujemy uczestnikom proseminarium udział w następujących wykładach obieralnych: w semestrze zimowym: Analiza numeryczna, Optymalizacja nieliniowa, Statystyka, Statystyka bayesowska oraz Rachunek prawdopodobieństwa II; w semestrze letnim: Uczenie maszynowe oraz Wstęp do procesów stochastycznych.

Referaty studentów będą oparte głównie na monografii [1] i pracach takich, jak [2]-[4]. Referaty i prace licencjackie będą mogły być projektami zespołowymi. Prace licencjackie będą mogły mieć matematyczną formę lub stanowić opis przygotowanego programu komputerowego.

Bibliography: (in Polish)

  1. C.M. Bishop and H. Bishop, Deep Learning: Foundations and Concepts, Springer 2024, https://www.bishopbook.com/
  2. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
  3. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33.
  4. Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow matching for generative modeling. arXiv preprint arXiv:2210.02747.
Learning outcomes: (in Polish)

Student:

  • rozumie podstawowe metody głębokiego uczenia maszynowego,
  • umie programować sieci głębokie do predykcji i generowania nowych treści,
  • potrafi wyszukiwać potrzebne informacje w literaturze i internecie,
  • potrafi zrozumiale przekazywać treści matematyczne w mowie i piśmie.
Assessment methods and assessment criteria: (in Polish)

Na podstawie wygłoszonych referatów i złożenia w systemie APD UW pracy licencjackiej.

Classes in period "Academic year 2024/25" (future)

Time span: 2024-10-01 - 2025-06-08
Selected timetable range:
Navigate to timetable
Type of class:
Proseminar, 60 hours more information
Coordinators: Szymon Nowakowski, Jan Peszek, Piotr Pokarowski
Group instructors: Szymon Nowakowski, Jan Peszek, Piotr Pokarowski
Students list: (inaccessible to you)
Examination: Pass/fail
Course descriptions are protected by copyright.
Copyright by University of Warsaw.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
contact accessibility statement USOSweb 7.0.3.0 (2024-03-22)