Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy

Informacje ogólne

Kod przedmiotu:	3322-ZASJEZIN-OG
Kod Erasmus / ISCED:	09.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0232) Literatura i językoznawstwo Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu:	Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy
Jednostka:	Katedra Lingwistyki Formalnej
Grupy:	Przedmioty ogólnouniwersyteckie humanistyczne Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim
Punkty ECTS i inne:	(brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	polski
Rodzaj przedmiotu:	ogólnouniwersyteckie
Tryb prowadzenia:	zdalnie
Skrócony opis:	Przedmiot ma na celu zapoznanie studentów - przede wszystkim filologów, ale także wszystkich zainteresowanych współczesnym językoznawstwem - z komputerowymi zasobami i narzędziami lingwistycznymi. Przedstawione zostaną wybrane aspekty tworzenia i budowy owych zasobów i narzędzi (ze szczególnym uwzględnieniem roli lingwistów w tym procesie), a także sposób ich wykorzystania w badaniach językoznawczych. Szczególny nacisk zostanie położony na kwestie związane z korpusami: typy korpusów, cele ich tworzenia, narzędzia do ich analizy (m.in. Wordsmith, Sketch Engine), przeszukiwanie z użyciem wyrażeń regularnych, kodowanie w formacie XML.
Pełny opis:	1. Korpusy tekstów: jednojęzyczne i porównawcze; tekstów pisanych, mówionych i audiowizualne; korpusy specjalistyczne: korpus streszczeń, korpusy tekstów ekonomicznych, korpus relacji koreferencyjnych. Wyszukiwanie informacji w korpusie: wyszukiwarki Poliqarp i PELCRA, narzędzia do wyszukiwania kolokacji. Poziomy anotacji w korpusach i narzędzia wspomagające anotację.Wykorzystanie wyrażeń regularnych do wyszukiwania informacji w korpusie oraz do pracy z tekstem. Zapoznanie z możliwościami narzędzi Wordsmith oraz serwisów Korpusomat i Sketch Engine. Miary statystyczne stosowane przy znajdowaniu kolokacji. 2. Kodowanie informacji w formacie XML oraz standardyzacja XML w lingwistyce: wytyczne Text Encoding Initiative dotyczące korpusów i słowników. Tworzenie schematów XML oraz plików XML zgodnych ze standardami TEI. Wykorzystanie języka XPath do wyszukiwania informacji w plikach XML. 3. Słowniki wykorzystywane w komputerowym przetwarzaniu języka naturalnego: Wordnet, Framenet, polski słownik walencyjny Walenty, słowniki nazw własnych, słowniki frazeologiczne. 4. Narzędzia do analizy morfologicznej: analizatory morfologiczne, słowniki fleksyjne, lematyzacja. 5. Problemy automatycznego ujednoznaczniania form homonimicznych: taggery. 6. Gramatyki formalne, parsery i banki drzew: Świgra, Spejd, Składnica. Składnia powierzchniowa a składnia głęboka. 7. Automatyczne wykrywanie wyrażeń koreferencjalnych. 8. Analiza i synteza mowy.
Literatura:	Bień Janusz S.: Problemy formalnego opisu składni polskiej. Warszawa 2009. Dziob Agnieszka, Łazarewicz Paulina: Problemy teoretyczno-metodologiczne semantycznego opisu czasowników w Słowosieci 2.0. W: Prace Filologiczne LXIV, s. 49-64. Lewandowska-Tomaszczyk Barbara (red.): Podstawy językoznawstwa korpusowego, Łódź 2005. Ogrodniczuk Maciej, Głowińska Katarzyna, Kopeć Mateusz, Savary Agata, Zawisławska Magdalena: Coreference. Annotation, Resolution and Evaluation in Polish. Berlin - Boston - Münich 2014. Piasecki Maciej: Automatyczne wydobywanie wiedzy o semantyce języka naturalnego z korpusów tekstu. W: Piotr Stalmaszczyk (red.), Metodologie językoznawstwa. Filozoficzne i empiryczne problemy w analizie języka. Łódź 2010. Przepiórkowski Adam: Powierzchniowe przetwarzanie języka polskiego. Warszawa 2008. Przepiórkowski Adam, Bańko Mirosław, Górski Rafał L. i Lewandowska-Tomaszczyk Barbara (red.): Narodowy Korpus Języka Polskiego. Warszawa 2012. Przepiórkowski Adam, Kupść Anna, Marciniak Małgorzata, Mykowiecka Agnieszka: Formalny opis języka polskiego. Teoria i implementacja. Warszawa 2002. Saloni Zygmunt, Woliński Marcin, Wołosz Robert, Gruszczyński Włodzimierz, Skowrońska Danuta: Słownik gramatyczny języka polskiego. Warszawa 2007. Świdziński Marek: Gramatyka formalna języka polskiego. Warszawa 1992.
Efekty uczenia się:	Studenci wiedzą, jakie zasoby i narzędzia informatyczne są obecnie dostępne i tworzone w Polsce. Znają podstawowe terminy związane z komputerowym przetwarzaniem języka naturalnego. Wiedzą, jakie jest zastosowanie poszczególnych zasobów i narzędzi i potrafią z nich korzystać we własnych badaniach naukowych. Student potrafi: - znaleźć interesującą go informację w korpusie, wykorzystując zaawansowane możliwości wyszukiwarek korpusowych, w tym wyrażenia regularne; - wybrać odpowiedni korpus spośród istniejących lub zaprojektować własny korpus w taki sposób, żeby odpowiadał on założeniom i celom danego badania; - uzyskać listę kolokacji za pomocą kolokatora PELCRA oraz narzędzi Wordsmith i Sketch Engine; - samodzielnie wyliczyć moc kolokacji dla dwóch wyrażeń w danym korpusie, stosując co najmniej dwie różne miary statystyczne; - stworzyć plik korpusowy i słownikowy w formacie XML zgodnie z wytycznym Text Encoding Initiative, wykorzystując schemat XML; - znaleźć interesującą go informację w specjalistycznych słownikach internetowych, w tym w Wordnecie, Framenecie, Walentym; - automatycznie zlematyzować oraz otagować polski tekst z wykorzystaniem istniejących narzędzi; - wykorzystać istniejące narzędzia do analizy składniowej tekstu; - napisać prostą gramatykę bezkontekstową; - zaanotować nagranie w programie Praat; uzyskać podstawowe informacje związane z nagraniem (takie jak częstotliwość podstawowa, formanty, głośność), wykorzystując program Praat.
Metody i kryteria oceniania:	Aktywność na zajęciach, sprawdzian końcowy.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.