Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy

Informacje ogólne

Kod przedmiotu: 3322-ZASJEZIN-OG
Kod Erasmus / ISCED: 09.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0232) Literatura i językoznawstwo Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Zasoby i narzędzia informatyczne w pracy językoznawcy - kurs internetowy
Jednostka: Katedra Lingwistyki Formalnej
Grupy: Przedmioty ogólnouniwersyteckie humanistyczne
Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej
Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

ogólnouniwersyteckie

Tryb prowadzenia:

zdalnie

Skrócony opis:

Przedmiot ma na celu zapoznanie studentów - przede wszystkim filologów, ale także wszystkich zainteresowanych współczesnym językoznawstwem - z komputerowymi zasobami i narzędziami lingwistycznymi. Przedstawione zostaną wybrane aspekty tworzenia i budowy owych zasobów i narzędzi (ze szczególnym uwzględnieniem roli lingwistów w tym procesie), a także sposób ich wykorzystania w badaniach językoznawczych.

Szczególny nacisk zostanie położony na kwestie związane z korpusami: typy korpusów, cele ich tworzenia, narzędzia do ich analizy (m.in. Wordsmith, Sketch Engine), przeszukiwanie z użyciem wyrażeń regularnych, kodowanie w formacie XML.

Pełny opis:

1. Korpusy tekstów: jednojęzyczne i porównawcze; tekstów pisanych, mówionych i audiowizualne; korpusy specjalistyczne: korpus streszczeń, korpusy tekstów ekonomicznych, korpus relacji koreferencyjnych. Wyszukiwanie informacji w korpusie: wyszukiwarki Poliqarp i PELCRA, narzędzia do wyszukiwania kolokacji. Poziomy anotacji w korpusach i narzędzia wspomagające anotację.Wykorzystanie wyrażeń regularnych do wyszukiwania informacji w korpusie oraz do pracy z tekstem. Zapoznanie z możliwościami narzędzi Wordsmith oraz serwisów Korpusomat i Sketch Engine. Miary statystyczne stosowane przy znajdowaniu kolokacji.

2. Kodowanie informacji w formacie XML oraz standardyzacja XML w lingwistyce: wytyczne Text Encoding Initiative dotyczące korpusów i słowników. Tworzenie schematów XML oraz plików XML zgodnych ze standardami TEI. Wykorzystanie języka XPath do wyszukiwania informacji w plikach XML.

3. Słowniki wykorzystywane w komputerowym przetwarzaniu języka naturalnego: Wordnet, Framenet, polski słownik walencyjny Walenty, słowniki nazw własnych, słowniki frazeologiczne.

4. Narzędzia do analizy morfologicznej: analizatory morfologiczne, słowniki fleksyjne, lematyzacja.

5. Problemy automatycznego ujednoznaczniania form homonimicznych: taggery.

6. Gramatyki formalne, parsery i banki drzew: Świgra, Spejd, Składnica. Składnia powierzchniowa a składnia głęboka.

7. Automatyczne wykrywanie wyrażeń koreferencjalnych.

8. Analiza i synteza mowy.

Literatura:

Bień Janusz S.: Problemy formalnego opisu składni polskiej. Warszawa 2009.

Dziob Agnieszka, Łazarewicz Paulina: Problemy teoretyczno-metodologiczne semantycznego opisu czasowników w Słowosieci 2.0. W: Prace Filologiczne LXIV, s. 49-64.

Lewandowska-Tomaszczyk Barbara (red.): Podstawy językoznawstwa korpusowego, Łódź 2005.

Ogrodniczuk Maciej, Głowińska Katarzyna, Kopeć Mateusz, Savary Agata, Zawisławska Magdalena: Coreference. Annotation, Resolution and Evaluation in Polish. Berlin - Boston - Münich 2014.

Piasecki Maciej: Automatyczne wydobywanie wiedzy o semantyce języka naturalnego z korpusów tekstu. W: Piotr Stalmaszczyk (red.), Metodologie językoznawstwa. Filozoficzne i empiryczne problemy w analizie języka. Łódź 2010.

Przepiórkowski Adam: Powierzchniowe przetwarzanie języka polskiego. Warszawa 2008.

Przepiórkowski Adam, Bańko Mirosław, Górski Rafał L. i Lewandowska-Tomaszczyk Barbara (red.): Narodowy Korpus Języka Polskiego. Warszawa 2012.

Przepiórkowski Adam, Kupść Anna, Marciniak Małgorzata, Mykowiecka Agnieszka: Formalny opis języka polskiego. Teoria i implementacja. Warszawa 2002.

Saloni Zygmunt, Woliński Marcin, Wołosz Robert, Gruszczyński Włodzimierz, Skowrońska Danuta: Słownik gramatyczny języka polskiego. Warszawa 2007.

Świdziński Marek: Gramatyka formalna języka polskiego. Warszawa 1992.

Efekty uczenia się:

Studenci wiedzą, jakie zasoby i narzędzia informatyczne są obecnie dostępne i tworzone w Polsce. Znają podstawowe terminy związane z komputerowym przetwarzaniem języka naturalnego. Wiedzą, jakie jest zastosowanie poszczególnych zasobów i narzędzi i potrafią z nich korzystać we własnych badaniach naukowych.

Student potrafi:

- znaleźć interesującą go informację w korpusie, wykorzystując zaawansowane możliwości wyszukiwarek korpusowych, w tym wyrażenia regularne;

- wybrać odpowiedni korpus spośród istniejących lub zaprojektować własny korpus w taki sposób, żeby odpowiadał on założeniom i celom danego badania;

- uzyskać listę kolokacji za pomocą kolokatora PELCRA oraz narzędzi Wordsmith i Sketch Engine;

- samodzielnie wyliczyć moc kolokacji dla dwóch wyrażeń w danym korpusie, stosując co najmniej dwie różne miary statystyczne;

- stworzyć plik korpusowy i słownikowy w formacie XML zgodnie z wytycznym Text Encoding Initiative, wykorzystując schemat XML;

- znaleźć interesującą go informację w specjalistycznych słownikach internetowych, w tym w Wordnecie, Framenecie, Walentym;

- automatycznie zlematyzować oraz otagować polski tekst z wykorzystaniem istniejących narzędzi;

- wykorzystać istniejące narzędzia do analizy składniowej tekstu;

- napisać prostą gramatykę bezkontekstową;

- zaanotować nagranie w programie Praat; uzyskać podstawowe informacje związane z nagraniem (takie jak częstotliwość podstawowa, formanty, głośność), wykorzystując program Praat.

Metody i kryteria oceniania:

Aktywność na zajęciach, sprawdzian końcowy.

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0 (2024-03-22)