Reinforcement learning
Informacje ogólne
Kod przedmiotu: | 1000-318bRL |
Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
Nazwa przedmiotu: | Reinforcement learning |
Jednostka: | Wydział Matematyki, Informatyki i Mechaniki |
Grupy: |
Przedmioty obieralne dla informatyki Przedmioty obowiązkowe dla I roku Machine Learning |
Punkty ECTS i inne: |
6.00
|
Język prowadzenia: | angielski |
Rodzaj przedmiotu: | monograficzne |
Założenia (lista przedmiotów): | Głębokie sieci neuronowe (wspólne z 1000-317bDNN) 1000-2M16GSN |
Skrócony opis: |
Celem przedmiotu jest przedstawienie współczesnych technik oraz algorytmów uczenia ze wzmocnieniem ze szczególnym uwzględnieniem metod bezmodelowych, metod z użyciem modelu oraz metod opartych o przeszukiwanie. |
Pełny opis: |
1. Metody bezmodelowe a) Formalizm uczenia ze wzmocnieniem: procesy decyzyjne Markowa (MDP) & programowanie dynamiczne (DP) b) Metody oparte na wartościach * SARSA i TD(1) * kompromis pomiędzy stronniczością i wariancją oraz TD(lambda) * aproksymatory funkcji i związane z tym wyzwania c) Metody gradiantu polityki * Proste gradienty polityki * Uogólniony estymator przewagi (GAE) * Problemy związane z metodami gradientu polityki d) Metody typu aktor-krytyk * Optymalizacja polityki z użyciem regionów zaufania (TRPO) * Optymalizacja bliskiej polityki (PPO) * Algorytm stonowany aktor-krytyk (SAC) 2. Metody z użyciem modelu a) Szacowanie modelu b) Planowanie * Ciągłe i dyskretne problemy sterowania * Przeszukiwanie drzew Monte-Carlo * Alfa-zero 3. Przeszukiwania a) Model wielorękiego bandyty b) Strategie przeszukiwania związane z niepewnością 4. Tematy badawcze 5. Wystąpienia praktyków. |
Literatura: |
R. Sutton, G. Barto, Reinforcement Learning: An Introduction Francois-Lavet, F., Henderson P., Islam R., Bellemare M. G., Pineau J.,, An Introduction to Deep Reinforcement Learning. Szepesvari, C., Algorithms for Reinforcement Learning |
Efekty uczenia się: |
Wiedza: student zna i rozumie * własności algorytmów uczenia ze wzmocnieniem, wie kiedy które zastosować i jak zaimplementować najważniejsze z nich ze szczególnym uwzględnieniem klasy algorytmów opartych na gradiencie polityki, z klasy opartych na wartości oraz z klasy aktor-krytyk [K_W14]. Umiejętności: student potrafi * odpowiednio stosować metody w celu opracowania dedykowanego algorytmu uczenia ze wzmocnieniem lub stosować istniejące metody w swoich projektach badawczych. [K_U17] * implementować własne algorytmy i używać istniejące biblioteki oferujące procedury uczenia ze wzmocnieniem. [K_U18] Kompetencje społeczne: student jest gotów do * krytycznej oceny posiadanej wiedzy i odbieranych treści [K_K01]; * uznawania znaczenia wiedzy w rozwiązywaniu problemów poznawczych i praktycznych oraz zasięgania opinii ekspertów w przypadku trudności z samodzielnym rozwiązaniem problemu [K_K02]; * myślenia i działania w sposób przedsiębiorczy [K_K03]. |
Metody i kryteria oceniania: |
Egzamin i projekt. |
Zajęcia w cyklu "Semestr letni 2023/24" (zakończony)
Okres: | 2024-02-19 - 2024-06-16 |
Przejdź do planu
PN WT ŚR LAB
WYK
LAB
CZ LAB
LAB
PT LAB
|
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Łukasz Kuciński, Piotr Miłoś | |
Prowadzący grup: | Bartłomiej Cupiał, Gracjan Góral, Łukasz Kuciński, Piotr Miłoś, Michał Nauman, Mateusz Olko, Alicja Ziarko | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Zajęcia w cyklu "Semestr letni 2024/25" (jeszcze nie rozpoczęty)
Okres: | 2025-02-17 - 2025-06-08 |
Przejdź do planu
PN WT ŚR LAB
WYK
LAB
CZ LAB
LAB
PT |
Typ zajęć: |
Laboratorium, 30 godzin
Wykład, 30 godzin
|
|
Koordynatorzy: | Łukasz Kuciński, Piotr Miłoś | |
Prowadzący grup: | Łukasz Kuciński, Piotr Miłoś, Maciej Wojtala, Alicja Ziarko | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: | Egzamin |
Właścicielem praw autorskich jest Uniwersytet Warszawski.