Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy
Informacje ogólne
Kod przedmiotu: | 3322-ZASJEZIN-OG |
Kod Erasmus / ISCED: |
09.3
|
Nazwa przedmiotu: | Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy |
Jednostka: | Katedra Lingwistyki Formalnej |
Grupy: |
Przedmioty ogólnouniwersyteckie humanistyczne Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | ogólnouniwersyteckie |
Tryb prowadzenia: | zdalnie |
Skrócony opis: |
Przedmiot ma na celu zapoznanie studentów - przede wszystkim filologów, ale także wszystkich zainteresowanych współczesnym językoznawstwem - z komputerowymi zasobami i narzędziami lingwistycznymi. Przedstawione zostaną wybrane aspekty tworzenia i budowy owych zasobów i narzędzi (ze szczególnym uwzględnieniem roli lingwistów w tym procesie), a także sposób ich wykorzystania w badaniach językoznawczych. Szczególny nacisk zostanie położony na kwestie związane z korpusami: typy korpusów, cele ich tworzenia, narzędzia do ich analizy (m.in. Wordsmith, Sketch Engine), przeszukiwanie z użyciem wyrażeń regularnych, kodowanie w formacie XML. |
Pełny opis: |
1. Korpusy tekstów: jednojęzyczne i porównawcze; tekstów pisanych, mówionych i audiowizualne; korpusy specjalistyczne: korpus streszczeń, korpusy tekstów ekonomicznych, korpus relacji koreferencyjnych. Wyszukiwanie informacji w korpusie: wyszukiwarki Poliqarp i PELCRA, narzędzia do wyszukiwania kolokacji. Poziomy anotacji w korpusach i narzędzia wspomagające anotację.Wykorzystanie wyrażeń regularnych do wyszukiwania informacji w korpusie oraz do pracy z tekstem. Zapoznanie z możliwościami narzędzi Wordsmith oraz serwisów Korpusomat i Sketch Engine. Miary statystyczne stosowane przy znajdowaniu kolokacji. 2. Kodowanie informacji w formacie XML oraz standardyzacja XML w lingwistyce: wytyczne Text Encoding Initiative dotyczące korpusów i słowników. Tworzenie schematów XML oraz plików XML zgodnych ze standardami TEI. Wykorzystanie języka XPath do wyszukiwania informacji w plikach XML. 3. Słowniki wykorzystywane w komputerowym przetwarzaniu języka naturalnego: Wordnet, Framenet, polski słownik walencyjny Walenty, słowniki nazw własnych, słowniki frazeologiczne. 4. Narzędzia do analizy morfologicznej: analizatory morfologiczne, słowniki fleksyjne, lematyzacja. 5. Problemy automatycznego ujednoznaczniania form homonimicznych: taggery. 6. Gramatyki formalne, parsery i banki drzew: Świgra, Spejd, Składnica. Składnia powierzchniowa a składnia głęboka. 7. Automatyczne wykrywanie wyrażeń koreferencjalnych. 8. Analiza i synteza mowy. |
Literatura: |
Bień Janusz S.: Problemy formalnego opisu składni polskiej. Warszawa 2009. Dziob Agnieszka, Łazarewicz Paulina: Problemy teoretyczno-metodologiczne semantycznego opisu czasowników w Słowosieci 2.0. W: Prace Filologiczne LXIV, s. 49-64. Lewandowska-Tomaszczyk Barbara (red.): Podstawy językoznawstwa korpusowego, Łódź 2005. Ogrodniczuk Maciej, Głowińska Katarzyna, Kopeć Mateusz, Savary Agata, Zawisławska Magdalena: Coreference. Annotation, Resolution and Evaluation in Polish. Berlin - Boston - Münich 2014. Piasecki Maciej: Automatyczne wydobywanie wiedzy o semantyce języka naturalnego z korpusów tekstu. W: Piotr Stalmaszczyk (red.), Metodologie językoznawstwa. Filozoficzne i empiryczne problemy w analizie języka. Łódź 2010. Przepiórkowski Adam: Powierzchniowe przetwarzanie języka polskiego. Warszawa 2008. Przepiórkowski Adam, Bańko Mirosław, Górski Rafał L. i Lewandowska-Tomaszczyk Barbara (red.): Narodowy Korpus Języka Polskiego. Warszawa 2012. Przepiórkowski Adam, Kupść Anna, Marciniak Małgorzata, Mykowiecka Agnieszka: Formalny opis języka polskiego. Teoria i implementacja. Warszawa 2002. Saloni Zygmunt, Woliński Marcin, Wołosz Robert, Gruszczyński Włodzimierz, Skowrońska Danuta: Słownik gramatyczny języka polskiego. Warszawa 2007. Świdziński Marek: Gramatyka formalna języka polskiego. Warszawa 1992. |
Efekty uczenia się: |
Studenci wiedzą, jakie zasoby i narzędzia informatyczne są obecnie dostępne i tworzone w Polsce. Znają podstawowe terminy związane z komputerowym przetwarzaniem języka naturalnego. Wiedzą, jakie jest zastosowanie poszczególnych zasobów i narzędzi i potrafią z nich korzystać we własnych badaniach naukowych. Student potrafi: - znaleźć interesującą go informację w korpusie, wykorzystując zaawansowane możliwości wyszukiwarek korpusowych, w tym wyrażenia regularne; - wybrać odpowiedni korpus spośród istniejących lub zaprojektować własny korpus w taki sposób, żeby odpowiadał on założeniom i celom danego badania; - uzyskać listę kolokacji za pomocą kolokatora PELCRA oraz narzędzi Wordsmith i Sketch Engine; - samodzielnie wyliczyć moc kolokacji dla dwóch wyrażeń w danym korpusie, stosując co najmniej dwie różne miary statystyczne; - stworzyć plik korpusowy i słownikowy w formacie XML zgodnie z wytycznym Text Encoding Initiative, wykorzystując schemat XML; - znaleźć interesującą go informację w specjalistycznych słownikach internetowych, w tym w Wordnecie, Framenecie, Walentym; - automatycznie zlematyzować oraz otagować polski tekst z wykorzystaniem istniejących narzędzi; - wykorzystać istniejące narzędzia do analizy składniowej tekstu; - napisać prostą gramatykę bezkontekstową; - zaanotować nagranie w programie Praat; uzyskać podstawowe informacje związane z nagraniem (takie jak częstotliwość podstawowa, formanty, głośność), wykorzystując program Praat. |
Metody i kryteria oceniania: |
Aktywność na zajęciach, sprawdzian końcowy. |
Właścicielem praw autorskich jest Uniwersytet Warszawski.