Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Semantyka eksperymentalna - moduł analizy korpusowej

Informacje ogólne

Kod przedmiotu: 3501-KOG-SE-MAK Kod Erasmus / ISCED: 08.1 / (0223) Filozofia i etyka
Nazwa przedmiotu: Semantyka eksperymentalna - moduł analizy korpusowej
Jednostka: Instytut Filozofii
Grupy: Przedmioty fakultatywne, kognitywistyka, stacjonarne, pierwszego stopnia
Przedmioty moduły specjalizacyjnego 2, kognitywistyka, stacjonarne, pierwszego stopnia
Punkty ECTS i inne: 2.00
Język prowadzenia: polski
Rodzaj przedmiotu:

fakultatywne

Tryb prowadzenia:

zdalnie

Skrócony opis:

Celem modułu poświęconego korpusom jest zapoznanie studentów z dostępnymi narzędziami umożliwiającymi pracę z korpusami. Dane korpusowe w semantyce eksperymentalnej spełniać mogą kilka funkcji: mogą nie tylko stanowić świadectwo za pewną hipotezą semantyczną, lecz również stanowić bazę do tworzenia materiałów eksperymentalnych oraz dostarczać inspiracji dla hipotez semantycznych. Studenci poznają strukturę korpusu językowego oraz podstawowe założenia, jakie stoją za językoznawstwem korpusowym. Na zajęciach przedstawione zostaną również podstawowe miary kolokacji używane w językoznawstwie korpusowym (t, χ2 , MI, logDice) oraz jak można wykorzystać te miary do testowania pewnych hipotez dotyczących współwystępowania jednostek semantycznych w materiale językowym.

Pełny opis:

1. Korpusy i wyszukiwarki

Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego

- omówienie korpusów NKJP, BNC oraz COCA

- struktura tekstowa korpusów

- informacje zawarte w korpusie

- proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach

- cel praktyczny: student potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego

Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language.

- omówienie składni CQL

- wyrażenia regularne

- dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie

- cel praktyczny: student potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie

2. Kolokacje

Zajęcia 1. Miary kolokacji

- omówienie t-score

- omówienie χ2

- omówienie Mutual Information

- omówienie logDice

- testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie

- cel praktyczny: student wyposażony w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał różnice teoretyczne i praktyczne między nimi, wie również jak użyć ich do statystycznego testowania hipotez

Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych

- statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych

- cel praktyczny: student potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie.

3. Używanie SketchEngine

Zajęcia 1. Czym jest i co potrafi SketchEngine?

- omówienie korpusów dostępnych w SketchEngine

- wyszukiwanie i zapisywanie wyników wyszukiwania

- dostępne w SketchEngine miary kolokacji

- omówienie funkcji WordSketch

- korpusy równoległe

- cel praktyczny: student potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine

4. WordNety

Zajęcia 1. WordNet i Słowosieć

- struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach

- wykorzystanie WordNetów w połączeniu z korpusami

- cel praktyczny: student potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi

5. Programistyczna obsługa korpusów (dla chętnych)

Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python

- omówienie API udostępnianego przez SketchEngine

- krótkie wprowadzenie do formatu JSON w Python

- cel praktyczny: student potrafi wykonać wszystkie operacje, które wykonywał do tej pory za pomocą prostych skryptów w Pythonie

Literatura:

- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press.

- Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167.

- Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41.

- Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244.

- Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116.

- Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN.

- Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312).

- https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/

Efekty uczenia się:

Nabyta wiedza:

- student zna zasoby korpusowe dostępne w sieci

- student zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać

- student zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej

- student zna wybrane narzędzia korpusowe i wie, jak je stosować

Nabyte umiejętności:

- student umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów

- student umie zanalizować wyniki danych korpusowych

- student potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom

Nabyte kompetencje społeczne:

- student potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej

Metody i kryteria oceniania:

W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych.

0-35 - 2

35-50 - 3

50-60 - 4

60-70 - 5

Zajęcia w cyklu "Semestr letni 2019/20" (zakończony)

Okres: 2020-02-17 - 2020-08-02
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 20 miejsc więcej informacji
Koordynatorzy: Justyna Grudzińska-Zawadowska, Bartosz Maćkiewicz
Prowadzący grup: Bartosz Maćkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę

Zajęcia w cyklu "Semestr letni 2020/21" (jeszcze nie rozpoczęty)

Okres: 2021-02-22 - 2021-06-13
Wybrany podział planu:


powiększ
zobacz plan zajęć
Typ zajęć: Laboratorium, 15 godzin, 20 miejsc więcej informacji
Koordynatorzy: Justyna Grudzińska-Zawadowska, Bartosz Maćkiewicz
Prowadzący grup: Bartosz Maćkiewicz
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie na ocenę
Laboratorium - Zaliczenie na ocenę
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.