Semantyka eksperymentalna - moduł analizy korpusowej

Informacje ogólne

Kod przedmiotu:	3501-KOG-SE-MAK
Kod Erasmus / ISCED:	08.1 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0223) Filozofia i etyka Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu:	Semantyka eksperymentalna - moduł analizy korpusowej
Jednostka:	Instytut Filozofii
Grupy:
Punkty ECTS i inne:	(brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	polski
Rodzaj przedmiotu:	fakultatywne
Tryb prowadzenia:	zdalnie
Skrócony opis:	Celem modułu poświęconego korpusom jest zapoznanie studentów z dostępnymi narzędziami umożliwiającymi pracę z korpusami. Dane korpusowe w semantyce eksperymentalnej spełniać mogą kilka funkcji: mogą nie tylko stanowić świadectwo za pewną hipotezą semantyczną, lecz również stanowić bazę do tworzenia materiałów eksperymentalnych oraz dostarczać inspiracji dla hipotez semantycznych. Studenci poznają strukturę korpusu językowego oraz podstawowe założenia, jakie stoją za językoznawstwem korpusowym. Na zajęciach przedstawione zostaną również podstawowe miary kolokacji używane w językoznawstwie korpusowym (t, χ2 , MI, logDice) oraz jak można wykorzystać te miary do testowania pewnych hipotez dotyczących współwystępowania jednostek semantycznych w materiale językowym.
Pełny opis:	1. Korpusy i wyszukiwarki Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego - omówienie korpusów NKJP, BNC oraz COCA - struktura tekstowa korpusów - informacje zawarte w korpusie - proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach - cel praktyczny: student potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language. - omówienie składni CQL - wyrażenia regularne - dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie - cel praktyczny: student potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie 2. Kolokacje Zajęcia 1. Miary kolokacji - omówienie t-score - omówienie χ2 - omówienie Mutual Information - omówienie logDice - testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie - cel praktyczny: student wyposażony w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał różnice teoretyczne i praktyczne między nimi, wie również jak użyć ich do statystycznego testowania hipotez Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych - statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych - cel praktyczny: student potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie. 3. Używanie SketchEngine Zajęcia 1. Czym jest i co potrafi SketchEngine? - omówienie korpusów dostępnych w SketchEngine - wyszukiwanie i zapisywanie wyników wyszukiwania - dostępne w SketchEngine miary kolokacji - omówienie funkcji WordSketch - korpusy równoległe - cel praktyczny: student potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine 4. WordNety Zajęcia 1. WordNet i Słowosieć - struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach - wykorzystanie WordNetów w połączeniu z korpusami - cel praktyczny: student potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi 5. Programistyczna obsługa korpusów (dla chętnych) Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python - omówienie API udostępnianego przez SketchEngine - krótkie wprowadzenie do formatu JSON w Python - cel praktyczny: student potrafi wykonać wszystkie operacje, które wykonywał do tej pory za pomocą prostych skryptów w Pythonie
Literatura:	- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press. - Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167. - Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41. - Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244. - Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116. - Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN. - Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312). - https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/
Efekty uczenia się:	Nabyta wiedza: - student zna zasoby korpusowe dostępne w sieci - student zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać - student zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej - student zna wybrane narzędzia korpusowe i wie, jak je stosować Nabyte umiejętności: - student umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów - student umie zanalizować wyniki danych korpusowych - student potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom Nabyte kompetencje społeczne: - student potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej
Metody i kryteria oceniania:	W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych. 0-35 - 2 35-50 - 3 50-60 - 4 60-70 - 5

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.