Linguistic Engineering
General data
Course ID: | 3501-KOG-MS2-IL |
Erasmus code / ISCED: |
08.1
|
Course title: | Linguistic Engineering |
Name in Polish: | Inżynieria lingwistyczna |
Organizational unit: | Institute of Philosophy |
Course groups: | |
ECTS credit allocation (and other scores): |
(not available)
|
Language: | Polish |
Type of course: | elective monographs |
Mode: | Classroom |
Short description: |
The aim of the course is to present practically used natural language processing methods and techniques for Polish and English, especially linguistically advanced ones. |
Full description: |
(in Polish) Seminarium dotyczy przetwarzania języka naturalnego. Omówione zostaną fundamentalne wyzwania w pracy z tekstem: ujednoznacznienie morfoskładniowe, ekstrakcja informacji, modele językowe, matematyczna reprezentacja słów, semantyki leksykalne i kompozycyjne. Przedstawiane są najważniejsze metody stosowane do ww. zagadnień - zarówno statystyczne jak i oparte na sztucznej inteligencji. Istotną częścią kursu będzie przeanalizowanie metodyki pozwalającej na wyprowadzenie reprezentacji semantycznej zdania. Uczestnicy będą rozwiązywać problemy praktyczne korzystając z środowiska programistycznego, co pozwoli na samodzielną analizę tekstu w przyszłości. Program: 1. Wprowadzenie. Terminologia (inżynieria lingwistyczna, lingwistyka informatyczna, NLP, HLT itp.), historia, zastosowania, dwa paradygmaty (symboliczny i statystyczny). Narzędzia programistyczne: Python i NLTK. (1 seminarium) 2. Sztuczne sieci neuronowe przy przetwarzaniu języka naturalnego - geneza, zastosowania. (1 seminarium) 3. Językoznawstwo korpusowe, korpusy języka angielskiego, systemy znaczników (tagsety) dla języka angielskiego. Korpusy polskie, system morfosyntaktyczny języka polskiego, polskie systemy znaczników. (1 seminarium) 4. Analizatory morfologiczne, dezambiguatory, tagery. Dezambiguacja morfosyntaktyczna: metody lingwistyczne i statystyczne. (2–3 seminaria) 5. Matematyczna reprezentacja słów. Embeddings. Badanie zależności w reprezentacjach wektorowych. Metody alternatywne do reprezentacji wektorowych. (2-3 seminaria) 6. Modele językowe oparte na N-gramach i sztucznych sieciach neuronowych. Ekstrakcja informacji. (2-3 seminaria) 7. Semantyka: leksykalna i kompozycyjna, słowniki semantyczne typu wordnet (w tym polskie), reprezentacje znaczenia, formalizmy semantyczne, Semantyka Montague. (1–2 seminaria) 8. Implementacja fragmentów gramatyki języka polskiego. Semantyka w gramatykach. (1-2 seminaria) 9. Zastosowania parserów semantycznych i podsumowanie. (1 seminarium) |
Bibliography: |
(in Polish) Materiały własne oraz wybrane fragmenty monografii: Steven Bird, Ewan Klein i Edward Loper 2016, „Natural Language Processing with Python” (2. wydanie; http://www.nltk.org/book/). Daniel Jurafsky i James H. Martin 2009, „Speech and Language Processing”, Prentice-Hall (2. wydanie). |
Learning outcomes: |
(in Polish) Wiedza: - znajomość wybranych technik znakowania morfoskładniowego, w tym technik dezambiguacji interpretacji morfoskładniowych. - znajomość wybranych technik uczenia maszynowego przy pracy analizie tekstu - znajomość wybranych technik matematycznej reprezentacji słów oraz modeli językowych - znajomość wybranych zasobów wykorzystywanych w przetwarzaniu języka naturalnego - znajomość typów i technik przetwarzania składniowego - znajomość metod wzbogacania gramatyk formalnych o mechanizmy przetwarzania semantycznego Nabyte umiejętności: - umiejętność implementacji metod uczenia maszynowego dla typowych problemów inżynierii lingwistycznej - umiejętność wyprowadzania reprezentacji semantycznej zdania - umiejętność korzystania ze znakowanych morfosyntaktycznie korpusów - umiejętność ekstrakcji informacji z tekstu Nabyte kompetencje społeczne: - umiejętność analizy korpusów pod kątem zagadnień społecznych |
Assessment methods and assessment criteria: |
(in Polish) OD 2020/2021 Jeden projekt semestralny, w którym są wykorzystane techniki omawiane na zajęciach. Dopuszczalna liczba nieobecności podlegających usprawiedliwieniu: 2 DO 2019/2020 Zaliczenie na ocenę na podstawie wyników projektów. Ocena na podstawie wyników dwóch projektów: samodzielnego projektu śródsemestralnego dotyczącego ujednoznaczniania morfoskładniowego lub matematycznej reprezentacji słów oraz samodzielnego lub grupowego (maksymalnie 2–3-osobowego) projektu implementacyjnego związanego z gramatykami unifikacyjnymi lub modelami językowymi. Opis wyników projektu w postaci krótkiego artykułu i prezentacja wyników projektu. |
Copyright by University of Warsaw.