Semantyka eksperymentalna - moduł analizy korpusowej
Informacje ogólne
Kod przedmiotu: | 3800-KOG-MS2-SEMAK |
Kod Erasmus / ISCED: |
08.1
|
Nazwa przedmiotu: | Semantyka eksperymentalna - moduł analizy korpusowej |
Jednostka: | Wydział Filozofii |
Grupy: |
Przedmioty MS2, kognitywistyka, studia stacjonarne, pierwszego stopnia |
Punkty ECTS i inne: |
(brak)
|
Język prowadzenia: | polski |
Rodzaj przedmiotu: | fakultatywne |
Tryb prowadzenia: | zdalnie |
Skrócony opis: |
Celem modułu jest zapoznanie studentów z dostępnymi narzędziami umożliwiającymi pracę z korpusami. Dane korpusowe w semantyce eksperymentalnej spełniać mogą kilka funkcji: mogą nie tylko stanowić świadectwo za pewną hipotezą semantyczną, lecz również stanowić bazę do tworzenia materiałów eksperymentalnych oraz dostarczać inspiracji dla hipotez semantycznych. Studenci poznają strukturę korpusu językowego oraz podstawowe założenia, jakie stoją za językoznawstwem korpusowym. Na zajęciach przedstawione zostaną również podstawowe miary kolokacji używane w językoznawstwie korpusowym (t, χ2 , MI, logDice) oraz jak można wykorzystać te miary do testowania pewnych hipotez dotyczących współwystępowania jednostek semantycznych w materiale językowym. |
Pełny opis: |
1. Korpusy i wyszukiwarki Zajęcia 1. Dostępne korpusy języka polskiego i angielskiego - omówienie korpusów NKJP, BNC oraz COCA - struktura tekstowa korpusów - informacje zawarte w korpusie - proste wyszukiwanie w dostępnych do tych korpusów wyszukiwarkach - cel praktyczny: student/studentka potrafi wyszukiwać słowa i frazy w wyszukiwarkach korpusowych dla języka polskiego i angielskiego Zajęcia 2. Zaawansowane funkcje wyszukiwarek. Corpus Query Language. - omówienie składni CQL - wyrażenia regularne - dane dotyczące czasu/kanału/rejestru itp. dokumentów zawartych w korpusie - cel praktyczny: student/studentka potrafi konstruować złożone wyszukiwania przy użyciu wyrażeń regularnych i odpowiednich tagów zawartych w korpusie 2. Kolokacje Zajęcia 1. Miary kolokacji - omówienie t-score - omówienie χ2 - omówienie Mutual Information - omówienie logDice - testowanie statystyczne hipotez dotyczących współwystępowania jednostek semantycznych w korpusie - cel praktyczny: student/studentka wyposażony/a w dane dotyczące frekwencji i współwystępowania określonych słów potrafi obliczyć i zinterpretować poznane miary, będzie rozumiał/a różnice teoretyczne i praktyczne między nimi, wie również, jak użyć ich do statystycznego testowania hipotez Zajęcia 2. Miary kolokacji w wyszukiwarkach korpusowych - statystyki dotyczące współwystępowania wyrażeń zawarte w wyszukiwarkach korpusowych - cel praktyczny: student/studentka potrafi uzyskać dostęp do odpowiednich statystyk za pomocą wyszukiwarek korpusowych, a jeżeli nie udostępniają one akurat tych, których potrzebuje, to potrafi samemu je obliczyć na podstawie informacji o frekwencji zawartych w korpusie. 3. Używanie SketchEngine Zajęcia 1. Czym jest i co potrafi SketchEngine? - omówienie korpusów dostępnych w SketchEngine - wyszukiwanie i zapisywanie wyników wyszukiwania - dostępne w SketchEngine miary kolokacji - omówienie funkcji WordSketch - korpusy równoległe - cel praktyczny: student/studentka potrafi wykorzystać swoją wiedzę i umiejętności nabyte na poprzednich zajęciach w pracy z wyszukiwarka SketchEngine 4. WordNety Zajęcia 1. WordNet i Słowosieć - struktura WordNetu - relacje między jednostkami semantycznymi opisywanymi w słowosieciach - wykorzystanie WordNetów w połączeniu z korpusami - cel praktyczny: student/studentka potrafi wykorzystywać informacje zawarte w WordNetach w pracy z kopusami językowymi 5. Programistyczna obsługa korpusów (dla chętnych) Zajęcia 1. Korzystanie z korpusu SketchEngine przy użyciu języka Python - omówienie API udostępnianego przez SketchEngine - krótkie wprowadzenie do formatu JSON w Python - cel praktyczny: student/studentka potrafi wykonać wszystkie operacje, które wykonywał/a do tej pory za pomocą prostych skryptów w Pythonie |
Literatura: |
- Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing (Vol. 999). Cambridge: MIT press. - Davies, M. (2007). Semantically-based queries with a joint BNC/WordNet database. Language and Computers, 62(1), 149-167. - Miller, G. A. (1995). WordNet: a lexical database for English. Communications of the ACM, 38(11), 39-41. - Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D., & Miller, K. J. (1990). Introduction to WordNet: An on-line lexical database. International journal of lexicography, 3(4), 235-244. - Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). Itri-04-08 the sketch engine. Information Technology, 105, 116. - Lewandowska-Tomaszczyk, B., Bańko, M., Górski, R. L., Pęzik, P., & Przepiórkowski, A. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN. - Maziarz, M., Piasecki, M., Rudnicka, E., & Szpakowicz, S. (2014). Plwordnet as the cornerstone of a toolkit of lexico-semantic resources. In Proceedings of the Seventh Global Wordnet Conference (pp. 304-312). - https://www.sketchengine.co.uk/user-guide/user-manual/word-sketch/ |
Efekty uczenia się: |
Student/studentka Nabyta wiedza: - zna zasoby korpusowe dostępne w sieci - zna różne rodzaje korpusów i wie, do jakich celów można je wykorzystać - zna podstawowe pojęcia i terminologię z zakresu lingwistyki korpusowej - zna wybrane narzędzia korpusowe i wie, jak je stosować Nabyte umiejętności: - umie posługiwać się wybranymi narzędziami służącymi do analizy korpusów - umie zanalizować wyniki danych korpusowych - potrafi korzystać z wybranego środowiska pracy dedykowanego korpusom Nabyte kompetencje społeczne: - potrafi współpracować w zespole badawczym, korzystając z narzędzi komunikacji cyfrowej |
Metody i kryteria oceniania: |
a) Metody weryfikacji efektów uczenia się: W każdym tygodniu pojawi się praca domowa (łącznie 7 prac domowych, po 10 punktów każda). Ocena końcowa zależy tylko od poprawnego wykonania prac domowych. b) Semestralna liczba dopuszczalnych nieobecności zajęciach oraz w wypadkach, których to dotyczy, sposoby ich zaliczania: 2 w semestrze c) Skala ocen: 0-35 - 2 35-50 - 3 50-60 - 4 60-70 - 5 |
Właścicielem praw autorskich jest Uniwersytet Warszawski.