Semantyka eksperymentalna - moduł analizy korpusowej
Informacje ogólne
Kod przedmiotu: | 3501-KOG-SE-MAK |
Kod Erasmus / ISCED: |
08.1
|
Nazwa przedmiotu: | Semantyka eksperymentalna - moduł analizy korpusowej |
Jednostka: | Instytut Filozofii |
Grupy: | |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | fakultatywne |
Tryb prowadzenia: | zdalnie |
Skrócony opis: |
Celem modułu poświęconego korpusom jest zapoznanie studentów z dostępnymi narzędziami umożliwiającymi pracę z korpusami. Dane korpusowe w semantyce eksperymentalnej spełniać mogą kilka funkcji: mogą nie tylko stanowić świadectwo za pewną hipotezą semantyczną, lecz również stanowić bazę do tworzenia materiałów eksperymentalnych oraz dostarczać inspiracji dla hipotez semantycznych. Studenci poznają strukturę korpusu językowego oraz podstawowe założenia, jakie stoją za językoznawstwem korpusowym. Na zajęciach przedstawione zostaną również podstawowe miary kolokacji używane w językoznawstwie korpusowym (t, χ2 , MI, logDice) oraz jak można wykorzystać te miary do testowania pewnych hipotez dotyczących współwystępowania jednostek semantycznych w materiale językowym. |
Pełny opis: |
1. Korpusy i wyszukiwarki Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego - omówienie korpusów NKJP, BNC oraz COCA - struktura tekstowa korpusów - informacje zawarte w korpusie - proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach - cel praktyczny: student potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language. - omówienie składni CQL - wyrażenia regularne - dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie - cel praktyczny: student potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie 2. Kolokacje Zajęcia 1. Miary kolokacji - omówienie t-score - omówienie χ2 - omówienie Mutual Information - omówienie logDice - testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie - cel praktyczny: student wyposażony w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał różnice teoretyczne i praktyczne między nimi, wie również jak użyć ich do statystycznego testowania hipotez Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych - statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych - cel praktyczny: student potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie. 3. Używanie SketchEngine Zajęcia 1. Czym jest i co potrafi SketchEngine? - omówienie korpusów dostępnych w SketchEngine - wyszukiwanie i zapisywanie wyników wyszukiwania - dostępne w SketchEngine miary kolokacji - omówienie funkcji WordSketch - korpusy równoległe - cel praktyczny: student potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine 4. WordNety Zajęcia 1. WordNet i Słowosieć - struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach - wykorzystanie WordNetów w połączeniu z korpusami - cel praktyczny: student potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi 5. Programistyczna obsługa korpusów (dla chętnych) Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python - omówienie API udostępnianego przez SketchEngine - krótkie wprowadzenie do formatu JSON w Python - cel praktyczny: student potrafi wykonać wszystkie operacje, które wykonywał do tej pory za pomocą prostych skryptów w Pythonie |
Literatura: |
- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press. - Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167. - Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41. - Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244. - Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116. - Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN. - Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312). - https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/ |
Efekty uczenia się: |
Nabyta wiedza: - student zna zasoby korpusowe dostępne w sieci - student zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać - student zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej - student zna wybrane narzędzia korpusowe i wie, jak je stosować Nabyte umiejętności: - student umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów - student umie zanalizować wyniki danych korpusowych - student potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom Nabyte kompetencje społeczne: - student potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej |
Metody i kryteria oceniania: |
W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych. 0-35 - 2 35-50 - 3 50-60 - 4 60-70 - 5 |
Właścicielem praw autorskich jest Uniwersytet Warszawski.