Distributional semantics
General data
Course ID: | 3501-KOG-SE-SD |
Erasmus code / ISCED: |
08.1
|
Course title: | Distributional semantics |
Name in Polish: | Semantyka eksperymentalna - moduł semantyki dystrybucyjnej |
Organizational unit: | Institute of Philosophy |
Course groups: | |
ECTS credit allocation (and other scores): |
(not available)
|
Language: | Polish |
Type of course: | elective courses |
Prerequisites (description): | (in Polish) Umiejętność programowania w języku Python |
Mode: | Classroom |
Short description: |
The course aims to familiarise students with the paradigm of distribution semantics from the point of view of the discipline of natural language processing (NLP). We will focus on methods of building semantic distribution models (e.g., using machine learning algorithms) and on practical applications of these models in NLP tasks. |
Full description: |
(in Polish) Tematem zajęć są zagadnienia dotyczące paradygmatu semantyki dystrybucyjnej. Semantyka dystrybucyjna jest teorią możliwą do zaimplementowania, stosowaną m.in. w semantycznym przetwarzaniu języka naturalnego. Cechą specyficzną semantyki dystrybucyjnej jest to, że dobrze modeluje proces określania podobieństwa/powiązania semantycznego przez ludzi, oraz określa znaczenia słów na podstawie ich użycia w języku. Znaczenie danego słowa jest szacowane na postawie dystrybucji słowa (tj. kontekstów leksykalnych i gramatycznych, w których to słowo się pojawia) i reprezentowane w postaci np. wektora dystrybucyjnego. Na zajęciach zostaną przedstawione narzędzia programistyczne, pozwalające na generowanie modeli dystrybucyjnych, a także praktyczne zastosowania tych modeli. Zajęcia 1: Podstawy teoretyczne semantyki dystrybucyjnej - hipoteza dystrybucyjna - reprezentacje wektorowe słów - miary powiązania i podobieństwa Zajęcia 2: Modele dystrybucyjne (1) - model frekwencyjny TF-IDF - model syntagmatyczny LSA Zajęcia 3: Wektorowe reprezentacje słów jako komponent sieci neuronowych - idee perceptronu i neuronu sigmoidalnego - koncepcja i budowa sieci neuronowej - optymalizacja i uczenie sieci neuronowych Zajęcia 4: Modele dystrybucyjne (2) - idea zanurzeń słownych (ang. word embedding) - modele językowe - zanurzenia słowne typu word2vec i fastText Zajęcia 5: Modele dystrybucyjne (3) - głębokie modele językowe - kontekstowe zanurzenia słowne typu Elmo i BERT Zajęcia 6: Ewaluacja modeli dystrybucyjnych - ewaluacja wewnętrzna (ang. intrinsic evaluation) - ewaluacja in vivo (ang. extrinsic evaluation) - praktyczne zastosowania modeli dystrybucyjnych Zajęcia 7: Semantyka kompozycyjno-dystrybucyjna - idee i metody kompozycji semantycznej - praktyczne zastosowania modeli dystrybucyjnych |
Bibliography: |
(in Polish) - Daniel Jurafsky i James H. Martin (2017) Speech and Language Processing (oraz draft 3 edycji https://web.stanford.edu/~jurafsky/slp3/) - Stephen Clark (2015) Vector Space Models of Lexical Meaning. W: S. Lappin i C. Fox (red.) The Handbook of Contemporary Semantic Theory. s. 493-522. John Willey & Sons. - Aktualne artykuły naukowe |
Learning outcomes: |
(in Polish) Nabyta wiedza: - znajomość podstawowych zagadnień związanych z paradygmatem semantyki dystrybucyjnej, - znajomość narzędzi NLP umożliwiających modelowanie dystrybucji leksykalnych i reprezentowanie znaczeń słów. Nabyte umiejętności: - umiejętność doboru narzędzi i zasobów (danych tekstowych) do tworzenia semantycznych modeli dystrybucyjnych, - umiejętność weryfikacji uzyskanych wyników. Nabyte kompetencje społeczne: - umiejętność selekcjonowania i porządkowania informacji uzyskanych w procesie komunikacji, - umiejętność jasnego komunikowania technicznie skomplikowanych zagadnień, - umiejętność samodzielnego rozwiązywania problemów. |
Assessment methods and assessment criteria: |
(in Polish) OD 2020/2021 Ocena końcowa na podstawie: - wyniku realizacji samodzielnej pracy domowej polegającej na przygotowaniu danych tekstowych, które będą wykorzystane na zajęciach, - wyników testów tzw. wejściówek. Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2 DO 2019/2020 Ocena końcowa na podstawie punktacji za programistyczne prace domowe (i ewentualnie wyniku egzaminu) |
Copyright by University of Warsaw.