Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Semantyka eksperymentalna - moduł analizy korpusowej

Informacje ogólne

Kod przedmiotu: 3800-KOG-MS2-SEMAK
Kod Erasmus / ISCED: 08.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0223) Filozofia i etyka Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Semantyka eksperymentalna - moduł analizy korpusowej
Jednostka: Wydział Filozofii
Grupy: Przedmioty MS2, kognitywistyka, studia stacjonarne, pierwszego stopnia
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

fakultatywne

Tryb prowadzenia:

zdalnie

Skrócony opis:

Celem modułu jest zapoznanie studentów z dostępnymi narzędziami umożliwiającymi pracę z korpusami. Dane korpusowe w semantyce eksperymentalnej spełniać mogą kilka funkcji: mogą nie tylko stanowić świadectwo za pewną hipotezą semantyczną, lecz również stanowić bazę do tworzenia materiałów eksperymentalnych oraz dostarczać inspiracji dla hipotez semantycznych. Studenci poznają strukturę korpusu językowego oraz podstawowe założenia, jakie stoją za językoznawstwem korpusowym. Na zajęciach przedstawione zostaną również podstawowe miary kolokacji używane w językoznawstwie korpusowym (t, χ2 , MI, logDice) oraz jak można wykorzystać te miary do testowania pewnych hipotez dotyczących współwystępowania jednostek semantycznych w materiale językowym.

Pełny opis:

1. Korpusy i wyszukiwarki

Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego

- omówienie korpusów NKJP, BNC oraz COCA

- struktura tekstowa korpusów

- informacje zawarte w korpusie

- proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach

- cel praktyczny: student/studentka potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego

Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language.

- omówienie składni CQL

- wyrażenia regularne

- dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie

- cel praktyczny: student/studentka potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie

2. Kolokacje

Zajęcia 1. Miary kolokacji

- omówienie t-score

- omówienie χ2

- omówienie Mutual Information

- omówienie logDice

- testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie

- cel praktyczny: student/studentka wyposażony/a w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał/a różnice teoretyczne i praktyczne między nimi, wie również, jak użyć ich do statystycznego testowania hipotez

Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych

- statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych

- cel praktyczny: student/studentka potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie.

3. Używanie SketchEngine

Zajęcia 1. Czym jest i co potrafi SketchEngine?

- omówienie korpusów dostępnych w SketchEngine

- wyszukiwanie i zapisywanie wyników wyszukiwania

- dostępne w SketchEngine miary kolokacji

- omówienie funkcji WordSketch

- korpusy równoległe

- cel praktyczny: student/studentka potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine

4. WordNety

Zajęcia 1. WordNet i Słowosieć

- struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach

- wykorzystanie WordNetów w połączeniu z korpusami

- cel praktyczny: student/studentka potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi

5. Programistyczna obsługa korpusów (dla chętnych)

Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python

- omówienie API udostępnianego przez SketchEngine

- krótkie wprowadzenie do formatu JSON w Python

- cel praktyczny: student/studentka potrafi wykonać wszystkie operacje, które wykonywał/a do tej pory za pomocą prostych skryptów w Pythonie

Literatura:

- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press.

- Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167.

- Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41.

- Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244.

- Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116.

- Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN.

- Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312).

- https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/

Efekty uczenia się:

Student/studentka

Nabyta wiedza:

- zna zasoby korpusowe dostępne w sieci

- zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać

- zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej

- zna wybrane narzędzia korpusowe i wie, jak je stosować

Nabyte umiejętności:

- umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów

- umie zanalizować wyniki danych korpusowych

- potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom

Nabyte kompetencje społeczne:

- potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej

Metody i kryteria oceniania:

a) Metody weryfikacji efektów uczenia się:

W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych.

b) Semestralna liczba dopuszczalnych nieobecności zajęciach oraz w wypadkach, których to dotyczy, sposoby ich zaliczania: 2 w semestrze

c) Skala ocen:

0-35 - 2

35-50 - 3

50-60 - 4

60-70 - 5

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0 (2024-03-22)