Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy

Informacje ogólne

Kod przedmiotu: 3322-ZASJEZIN-OG Kod Erasmus / ISCED: 09.3 / (0232) Literatura i językoznawstwo
Nazwa przedmiotu: Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy
Jednostka: Katedra Lingwistyki Formalnej
Grupy: Przedmioty ogólnouniwersyteckie humanistyczne
Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej
Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim
Punkty ECTS i inne: 3.00
zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

ogólnouniwersyteckie

Tryb prowadzenia:

zdalnie

Skrócony opis:

Przedmiot ma na celu zapoznanie studentów - przede wszystkim filologów, ale także wszystkich zainteresowanych współczesnym językoznawstwem - z komputerowymi zasobami i narzędziami lingwistycznymi. Przedstawione zostaną wybrane aspekty tworzenia i budowy owych zasobów i narzędzi (ze szczególnym uwzględnieniem roli lingwistów w tym procesie), a także sposób ich wykorzystania w badaniach językoznawczych.

Szczególny nacisk zostanie położony na kwestie związane z korpusami: typy korpusów, cele ich tworzenia, narzędzia do ich analizy (m.in. Wordsmith, Sketch Engine), przeszukiwanie z użyciem wyrażeń regularnych, kodowanie w formacie XML.

Pełny opis:

1. Korpusy tekstów: jednojęzyczne i porównawcze; tekstów pisanych, mówionych i audiowizualne; korpusy specjalistyczne: korpus streszczeń, korpusy tekstów ekonomicznych, korpus relacji koreferencyjnych. Wyszukiwanie informacji w korpusie: wyszukiwarki Poliqarp i PELCRA, narzędzia do wyszukiwania kolokacji. Poziomy anotacji w korpusach i narzędzia wspomagające anotację.Wykorzystanie wyrażeń regularnych do wyszukiwania informacji w korpusie oraz do pracy z tekstem. Zapoznanie z możliwościami narzędzi Wordsmith oraz serwisów Korpusomat i Sketch Engine. Miary statystyczne stosowane przy znajdowaniu kolokacji.

2. Kodowanie informacji w formacie XML oraz standardyzacja XML w lingwistyce: wytyczne Text Encoding Initiative dotyczące korpusów i słowników. Tworzenie schematów XML oraz plików XML zgodnych ze standardami TEI. Wykorzystanie języka XPath do wyszukiwania informacji w plikach XML.

3. Słowniki wykorzystywane w komputerowym przetwarzaniu języka naturalnego: Wordnet, Framenet, polski słownik walencyjny Walenty, słowniki nazw własnych, słowniki frazeologiczne.

4. Narzędzia do analizy morfologicznej: analizatory morfologiczne, słowniki fleksyjne, lematyzacja.

5. Problemy automatycznego ujednoznaczniania form homonimicznych: taggery.

6. Gramatyki formalne, parsery i banki drzew: Świgra, Spejd, Składnica. Składnia powierzchniowa a składnia głęboka.

7. Automatyczne wykrywanie wyrażeń koreferencjalnych.

8. Analiza i synteza mowy.

Literatura:

Bień Janusz S.: Problemy formalnego opisu składni polskiej. Warszawa 2009.

Dziob Agnieszka, Łazarewicz Paulina: Problemy teoretyczno-metodologiczne semantycznego opisu czasowników w Słowosieci 2.0. W: Prace Filologiczne LXIV, s. 49-64.

Lewandowska-Tomaszczyk Barbara (red.): Podstawy językoznawstwa korpusowego, Łódź 2005.

Ogrodniczuk Maciej, Głowińska Katarzyna, Kopeć Mateusz, Savary Agata, Zawisławska Magdalena: Coreference. Annotation, Resolution and Evaluation in Polish. Berlin - Boston - Münich 2014.

Piasecki Maciej: Automatyczne wydobywanie wiedzy o semantyce języka naturalnego z korpusów tekstu. W: Piotr Stalmaszczyk (red.), Metodologie językoznawstwa. Filozoficzne i empiryczne problemy w analizie języka. Łódź 2010.

Przepiórkowski Adam: Powierzchniowe przetwarzanie języka polskiego. Warszawa 2008.

Przepiórkowski Adam, Bańko Mirosław, Górski Rafał L. i Lewandowska-Tomaszczyk Barbara (red.): Narodowy Korpus Języka Polskiego. Warszawa 2012.

Przepiórkowski Adam, Kupść Anna, Marciniak Małgorzata, Mykowiecka Agnieszka: Formalny opis języka polskiego. Teoria i implementacja. Warszawa 2002.

Saloni Zygmunt, Woliński Marcin, Wołosz Robert, Gruszczyński Włodzimierz, Skowrońska Danuta: Słownik gramatyczny języka polskiego. Warszawa 2007.

Świdziński Marek: Gramatyka formalna języka polskiego. Warszawa 1992.

Efekty uczenia się:

Studenci wiedzą, jakie zasoby i narzędzia informatyczne są obecnie dostępne i tworzone w Polsce. Znają podstawowe terminy związane z komputerowym przetwarzaniem języka naturalnego. Wiedzą, jakie jest zastosowanie poszczególnych zasobów i narzędzi i potrafią z nich korzystać we własnych badaniach naukowych.

Student potrafi:

- znaleźć interesującą go informację w korpusie, wykorzystując zaawansowane możliwości wyszukiwarek korpusowych, w tym wyrażenia regularne;

- wybrać odpowiedni korpus spośród istniejących lub zaprojektować własny korpus w taki sposób, żeby odpowiadał on założeniom i celom danego badania;

- uzyskać listę kolokacji za pomocą kolokatora PELCRA oraz narzędzi Wordsmith i Sketch Engine;

- samodzielnie wyliczyć moc kolokacji dla dwóch wyrażeń w danym korpusie, stosując co najmniej dwie różne miary statystyczne;

- stworzyć plik korpusowy i słownikowy w formacie XML zgodnie z wytycznym Text Encoding Initiative, wykorzystując schemat XML;

- znaleźć interesującą go informację w specjalistycznych słownikach internetowych, w tym w Wordnecie, Framenecie, Walentym;

- automatycznie zlematyzować oraz otagować polski tekst z wykorzystaniem istniejących narzędzi;

- wykorzystać istniejące narzędzia do analizy składniowej tekstu;

- napisać prostą gramatykę bezkontekstową;

- zaanotować nagranie w programie Praat; uzyskać podstawowe informacje związane z nagraniem (takie jak częstotliwość podstawowa, formanty, głośność), wykorzystując program Praat.

Metody i kryteria oceniania:

Aktywność na zajęciach, sprawdzian końcowy.

Zajęcia w cyklu "Semestr zimowy 2020/21" (zakończony)

Okres: 2020-10-01 - 2021-01-31
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Kurs internetowy, 30 godzin, 20 miejsc więcej informacji
Koordynatorzy: Alicja Wójcicka
Prowadzący grup: Alicja Wójcicka
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Kurs internetowy - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.