University of Warsaw - Central Authentication System
Strona główna

Distributional semantics

General data

Course ID: 3501-KOG-SE-SD
Erasmus code / ISCED: 08.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0223) Philosophy and ethics The ISCED (International Standard Classification of Education) code has been designed by UNESCO.
Course title: Distributional semantics
Name in Polish: Semantyka eksperymentalna - moduł semantyki dystrybucyjnej
Organizational unit: Institute of Philosophy
Course groups:
ECTS credit allocation (and other scores): (not available) Basic information on ECTS credits allocation principles:
  • the annual hourly workload of the student’s work required to achieve the expected learning outcomes for a given stage is 1500-1800h, corresponding to 60 ECTS;
  • the student’s weekly hourly workload is 45 h;
  • 1 ECTS point corresponds to 25-30 hours of student work needed to achieve the assumed learning outcomes;
  • weekly student workload necessary to achieve the assumed learning outcomes allows to obtain 1.5 ECTS;
  • work required to pass the course, which has been assigned 3 ECTS, constitutes 10% of the semester student load.

view allocation of credits
Language: Polish
Type of course:

elective courses

Prerequisites (description):

(in Polish) Umiejętność programowania w języku Python

Mode:

Classroom

Short description:

The course aims to familiarise students with the paradigm of distribution semantics from the point of view of the discipline of natural language processing (NLP). We will focus on methods of building semantic distribution models (e.g., using machine learning algorithms) and on practical applications of these models in NLP tasks.

Full description: (in Polish)

Tematem zajęć są zagadnienia dotyczące paradygmatu semantyki dystrybucyjnej. Semantyka dystrybucyjna jest teorią możliwą do zaimplementowania, stosowaną m.in. w semantycznym przetwarzaniu języka naturalnego. Cechą specyficzną semantyki dystrybucyjnej jest to, że dobrze modeluje proces określania podobieństwa/powiązania semantycznego przez ludzi, oraz określa znaczenia słów na podstawie ich użycia w języku. Znaczenie danego słowa jest szacowane na postawie dystrybucji słowa (tj. kontekstów leksykalnych i gramatycznych, w których to słowo się pojawia) i reprezentowane w postaci np. wektora dystrybucyjnego. Na zajęciach zostaną przedstawione narzędzia programistyczne, pozwalające na generowanie modeli dystrybucyjnych, a także praktyczne zastosowania tych modeli.

Zajęcia 1: Podstawy teoretyczne semantyki dystrybucyjnej

- hipoteza dystrybucyjna

- reprezentacje wektorowe słów

- miary powiązania i podobieństwa

Zajęcia 2: Modele dystrybucyjne (1)

- model frekwencyjny TF-IDF

- model syntagmatyczny LSA

Zajęcia 3: Wektorowe reprezentacje słów jako komponent sieci neuronowych

- idee perceptronu i neuronu sigmoidalnego

- koncepcja i budowa sieci neuronowej

- optymalizacja i uczenie sieci neuronowych

Zajęcia 4: Modele dystrybucyjne (2)

- idea zanurzeń słownych (ang. word embedding)

- modele językowe

- zanurzenia słowne typu word2vec i fastText

Zajęcia 5: Modele dystrybucyjne (3)

- głębokie modele językowe

- kontekstowe zanurzenia słowne typu Elmo i BERT

Zajęcia 6: Ewaluacja modeli dystrybucyjnych

- ewaluacja wewnętrzna (ang. intrinsic evaluation)

- ewaluacja in vivo (ang. extrinsic evaluation)

- praktyczne zastosowania modeli dystrybucyjnych

Zajęcia 7: Semantyka kompozycyjno-dystrybucyjna

- idee i metody kompozycji semantycznej

- praktyczne zastosowania modeli dystrybucyjnych

Bibliography: (in Polish)

- Daniel Jurafsky i James H. Martin (2017) Speech and Language Processing (oraz draft 3 edycji https://web.stanford.edu/~jurafsky/slp3/)

- Stephen Clark (2015) Vector Space Models of Lexical Meaning. W: S. Lappin i C. Fox (red.) The Handbook of Contemporary Semantic Theory. s. 493-522. John Willey & Sons.

- Aktualne artykuły naukowe

Learning outcomes: (in Polish)

Nabyta wiedza:

- znajomość podstawowych zagadnień związanych z paradygmatem semantyki dystrybucyjnej,

- znajomość narzędzi NLP umożliwiających modelowanie dystrybucji leksykalnych i reprezentowanie znaczeń słów.

Nabyte umiejętności:

- umiejętność doboru narzędzi i zasobów (danych tekstowych) do tworzenia semantycznych modeli dystrybucyjnych,

- umiejętność weryfikacji uzyskanych wyników.

Nabyte kompetencje społeczne:

- umiejętność selekcjonowania i porządkowania informacji uzyskanych w procesie komunikacji,

- umiejętność jasnego komunikowania technicznie skomplikowanych zagadnień,

- umiejętność samodzielnego rozwiązywania problemów.

Assessment methods and assessment criteria: (in Polish)

OD 2020/2021

Ocena końcowa na podstawie:

- wyniku realizacji samodzielnej pracy domowej polegającej na przygotowaniu danych tekstowych, które będą wykorzystane na zajęciach,

- wyników testów tzw. wejściówek.

Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2

DO 2019/2020

Ocena końcowa na podstawie punktacji za programistyczne prace domowe (i ewentualnie wyniku egzaminu)

This course is not currently offered.
Course descriptions are protected by copyright.
Copyright by University of Warsaw.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
contact accessibility statement USOSweb 7.0.3.0 (2024-03-22)