Przetwarzanie danych: Eksploracja tekstu (Text mining)

Informacje ogólne

Kod przedmiotu:	3502-SCC-ADTm
Kod Erasmus / ISCED:	14.2 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0314) Socjologia i kulturoznawstwo Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu:	Przetwarzanie danych: Eksploracja tekstu (Text mining)
Jednostka:	Wydział Socjologii
Grupy:	Przedmioty fakultatywne, socjologia cyfrowa, 1 rok, stacjonarne, drugiego stopnia
Punkty ECTS i inne:	(brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	polski
Rodzaj przedmiotu:	fakultatywne
Tryb prowadzenia:	zdalnie
Skrócony opis:	Celem zajęć jest zapoznanie z narzędziami do przetwarzania i analizy danych tekstowych z wielu plików zapisanych w różnych formatach oraz zautomatyzowanymi sposobami wydobywania informacji z tekstów. Uczestnicy i uczestniczki zajęć dowiedzą się, jak przygotować statystyki dotyczące badanych dokumentów oraz wyznaczyć podobieństwo i pogrupować teksty, a rezultaty analizy odczytać z wykorzystaniem różnych metod wizualizacji. Na zajęciach korzystać będziemy z narzędzi do przetwarzania i analizy danych tekstowych Korpusomat, TermoPL (IPI PAN), Inforex, WSD, Topic, WebSty, Sentemo (CLARIN-PL), AntConc, LancsBox, bibliotek Natural Language Toolkit (NLTK) i spaCy pracujących w środowisku Pythona oraz bibliotek OpenNLP, tm i stylo pracujących w języku R
Pełny opis:	Eksploracja tekstu (Text mining) to ogólna nazwa zróżnicowanych metod służących do zbierania dużych ilości danych tekstowych, ich obróbki i analizy. Są one wykorzystywane do różnych celów i w różnych obszarach – od badań naukowych poprzez badania komercyjne aż po ekspertyzy przygotowywane na zlecenie rządu. Za ich pomocą podejmowano próby przewidywania kierunku ruchu akcji czy występowania protestów politycznych. Wyszukiwarki wykorzystują analizę tekstu do selekcji najbardziej adekwatnych dla nas reklam. Zwiększenie zakresu możliwego do przebadania materiału i automatyzacja analizy otwiera również nowe możliwości badań w naukach humanistycznych i społecznych. Metodologia eksploracji tekstu jest opracowywana w różnych dyscyplinach do różnych zastosowań, w związku z czym ma wiele odmian. W ramach zajęć poznamy i przećwiczymy jej najważniejsze elementy: wyszukiwanie informacji (metody pozyskiwania tekstów), aplikację zaawansowanych metod statystycznych i sposobów przetwarzania języka naturalnego (NLP), takich jak tagowanie części mowy i analiza składniowa, wykorzystanie technik statystycznych do identyfikowania w tekście osób, organizacji i nazw miejsc oraz analizę sentymentu (sentiment analysis), która obejmuje rozpoznanie emocjonalnego zabarwienia analizowanego tekstu i wnioskowanie na tej podstawie o jego znaczeniu. Eksploracja tekstu obejmuje również bardziej podstawowe techniki pozyskiwania i przetwarzania danych. Należą do nich web scraping i web crawling oraz wykorzystywanie słowników i innych zasobów leksykalnych do przetwarzania tekstów. Uczestnicy i uczestniczki zajęć poznają narzędzia do przetwarzania danych tekstowych z wielu plików zapisanych w różnych formatach oraz zautomatyzowane sposoby wydobywania informacji z tekstów, dowiedzą się, jak przygotować proste statystyki dotyczące badanych dokumentów oraz wyznaczyć podobieństwo i pogrupować teksty, a rezultaty odczytać z wykorzystaniem różnych metod wizualizacji wyników. Na zajęciach korzystać będziemy z narzędzi do przetwarzania i analizy danych tekstowych Korpusomat, TermoPL (IPI PAN), Inforex, WSD, Topic, WebSty, Sentemo (CLARIN-PL), AntConc, LancsBox, bibliotek Natural Language Toolkit (NLTK) i spaCy, pracujących w środowisku Pythona, oraz bibliotek OpenNLP, tm i stylo pracujących w języku R
Literatura:	McEnery, Tony, Andrew Hardie. 2011. Corpus Linguistics: Method, theory and practice. Cambridge: Cambridge University Press. Baker, Paul. 2010. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press. Brezina, Vaclav. 2018. Statistics for corpus linguistics: A practical guide. Cambridge: Cambridge University Press. Steven Bird, Ewan Klein, Edward Loper. 2009. Natural Language Processing with Python Silge, Julia, Robinson, David. 2017. Text Mining with R Jurafsky, Dan, Martin, James H. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition
Efekty uczenia się:	K_W01 zna i rozumie pojęcia socjologii cyfrowej K_W05 rozumie funkcjonujące w świecie cyfrowym mechanizmy i źródła danych, jakie można wykorzystywać albo wygenerować K_W12 rozumie założenia metodologiczne stojące za wybranymi metodami zbierania i analizy danych cyfrowych K_U01 potrafi samodzielnie zaplanować i prowadzić badania społeczne z zastosowaniem nowoczesnych narzędzi przystosowanych lub stworzonych specjalnie na potrzeby świata cyfrowego K_U02 potrafi analizować dane ilościowe i jakościowe o charakterze cyfrowym K_U03 ma podstawowe umiejętności informatyczne pozwalające na poruszanie się w świecie cyfrowym i ułatwiające komunikację międzydziedzinową K_U04 ma zaawansowane umiejętności komunikacyjne obejmujące komunikację międzydziedzinową (nauki społeczne/IT) K_U05 potrafi przygotować prezentację wybranego zagadnienia lub badania w języku polskim i w języku obcym K_U06 potrafi posługiwać się kategoriami teoretycznymi do opisu i analizy procesów zachodzących we współczesnych społeczeństwach K_U07 potrafi wyszukiwać, gromadzić i przygotować do analizy za pomocą wybranych narzędzi dane dotyczące określonych zjawisk społecznych K_U09 ma motywację do ciągłego doskonalenia własnych umiejętności dzięki postawie otwartej na konieczność uczenia się przez całe życie K_U11 samodzielnie wyszukuje informacje o narzędziach służących analizie danych cyfrowych i dokształca się w zakresie korzystania z nich K_U12 potrafi posługiwać się danym programem komputerowym do analizy danych cyfrowych korzystając z jego zaawansowanych funkcji K_K01 jest świadom dylematów etycznych związanych z wykorzystaniem danych cyfrowych K_K03 potrafi krytycznie selekcjonować dane cyfrowe umożliwiające opracowanie wybranego problemu badawczego
Metody i kryteria oceniania:	przygotowanie projektu badawczego

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.