University of Warsaw - Central Authentication System
Strona główna

Linguistic Engineering

General data

Course ID: 3501-KOG-MS2-IL
Erasmus code / ISCED: 08.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0223) Philosophy and ethics The ISCED (International Standard Classification of Education) code has been designed by UNESCO.
Course title: Linguistic Engineering
Name in Polish: Inżynieria lingwistyczna
Organizational unit: Institute of Philosophy
Course groups:
ECTS credit allocation (and other scores): (not available) Basic information on ECTS credits allocation principles:
  • the annual hourly workload of the student’s work required to achieve the expected learning outcomes for a given stage is 1500-1800h, corresponding to 60 ECTS;
  • the student’s weekly hourly workload is 45 h;
  • 1 ECTS point corresponds to 25-30 hours of student work needed to achieve the assumed learning outcomes;
  • weekly student workload necessary to achieve the assumed learning outcomes allows to obtain 1.5 ECTS;
  • work required to pass the course, which has been assigned 3 ECTS, constitutes 10% of the semester student load.

view allocation of credits
Language: Polish
Type of course:

elective monographs

Mode:

Classroom

Short description:

The aim of the course is to present practically used natural language processing methods and techniques for Polish and English, especially linguistically advanced ones.

Full description: (in Polish)

Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, semantyki leksykalne i kompozycyjne. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na sztucznej inteligencji. Istotną częścią kursu będzie przeanalizowanie metodyki pozwalającej na wyprowadzenie reprezentacji semantycznej zdania. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości.

Program:

1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). Narzędzia programistyczne: Python i NLTK. (1 seminarium)

2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1 seminarium)

3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium)

4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (2–3 seminaria)

5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria)

6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria)

7. Semantyka: leksykalna i kompozycyjna, słowniki semantyczne typu wordnet (w tym polskie), reprezentacje znaczenia, formalizmy semantyczne, Semantyka Montague. (1–2 seminaria)

8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria)

9. Zastosowania parserów semantycznych i podsumowanie. (1 seminarium)

Bibliography: (in Polish)

Materiały własne oraz wybrane fragmenty monografii:

Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python”

(2. wydanie; http://www.nltk.org/book/).

Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall

(2. wydanie).

Learning outcomes: (in Polish)

Wiedza:

- znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych.

- znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu

- znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych

- znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego

- znajomość typów i technik przetwarzania składniowego

- znajomość metod wzbogacania gramatyk formalnych o mechanizmy przetwarzania semantycznego

Nabyte umiejętności:

- umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej

- umiejętność wyprowadzania reprezentacji semantycznej zdania

- umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów

- umiejętność ekstrakcji informacji z tekstu

Nabyte kompetencje społeczne:

- umiejętność analizy korpusów pod kątem zagadnień społecznych

Assessment methods and assessment criteria: (in Polish)

OD 2020/2021

Jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach.

Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2

DO 2019/2020

Zaliczenie na ocenę na podstawie wyników projektów.

Ocena na podstawie wyników dwóch projektów: samodzielnego projektu śródsemestralnego

dotyczącego ujednoznaczniania morfoskładniowego lub matematycznej reprezentacji słów

oraz samodzielnego lub grupowego (maksymalnie 2–3-osobowego) projektu

implementacyjnego związanego z gramatykami unifikacyjnymi lub modelami językowymi.

Opis wyników projektu w postaci krótkiego artykułu i prezentacja wyników projektu.

This course is not currently offered.
Course descriptions are protected by copyright.
Copyright by University of Warsaw.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
contact accessibility statement USOSweb 7.0.3.0 (2024-03-22)