University of Warsaw - Central Authentication System
Strona główna

(in Polish) Text-mining i analiza źródeł internetowych w języku Python

General data

Course ID: 2400-ZEWW853
Erasmus code / ISCED: 14.3 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0311) Economics The ISCED (International Standard Classification of Education) code has been designed by UNESCO.
Course title: (unknown)
Name in Polish: Text-mining i analiza źródeł internetowych w języku Python
Organizational unit: Faculty of Economic Sciences
Course groups: (in Polish) Przedmioty kierunkowe do wyboru - studia II stopnia EM - grupa 2 (1*30h)
(in Polish) Przedmioty kierunkowe do wyboru - studia II stopnia EP - grupa 4 (1*30h)
(in Polish) Przedmioty kierunkowe do wyboru - studia II stopnia IE - grupa 2 (2*30h)
(in Polish) Przedmioty kierunkowe do wyboru- studia I stopnia EP
(in Polish) Przedmioty wyboru kierunkowego dla studiów licencjackich EM
(in Polish) Przedmioty wyboru kierunkowego dla studiów licencjackich IE
(in Polish) Przedmioty wyboru kierunkowego dla studiów licencjackich MSEM
(in Polish) Przedmioty wyboru kierunkowego dla studiów licencjackich MSEMen
ECTS credit allocation (and other scores): 3.00 Basic information on ECTS credits allocation principles:
  • the annual hourly workload of the student’s work required to achieve the expected learning outcomes for a given stage is 1500-1800h, corresponding to 60 ECTS;
  • the student’s weekly hourly workload is 45 h;
  • 1 ECTS point corresponds to 25-30 hours of student work needed to achieve the assumed learning outcomes;
  • weekly student workload necessary to achieve the assumed learning outcomes allows to obtain 1.5 ECTS;
  • work required to pass the course, which has been assigned 3 ECTS, constitutes 10% of the semester student load.

view allocation of credits
Language: Polish
Type of course:

optional courses

Prerequisites (description):

(in Polish) Uczestnictwo w zajęciach “Wprowadzenie do programowania w języku Python” lub w innym kursie z zbliżonym programem



Short description: (in Polish)

W ramach zajęć studentki i studenci poznają metody służące pozyskaniu danych ze źródeł internetowych, w tym z mediów społecznościowych (np. Reddit,Mastodon), oraz metody przetwarzania danych tekstowych (metody przetwarzania języka naturalnego oraz text-miningu). Nabyte umiejętności umożliwią im samodzielną pracę z wykorzystaniem metod data science na studiach licencjackich/magisterskich

Full description: (in Polish)

Zbieranie danych z platform społecznościowych z wykorzystaniem BigQuery

• Zbieranie danych z Reddit oraz Mastodon z wykorzystaniem API

• Zbieranie wiadomości z portali internetowych

• Przegląd metod Natural Language Processing

• Wyrażenia regularne (regular expressions)

• Tokenizacja słów, stemming, n-gramy, lematyzacja, tagowanie części mowy

• Analiza sentymentu

• Analiza semantyczna, modelowanie tematyczne

(LSA, LDA, PCA)

• Wykorzystanie sieci neuronowych w text- miningu

• Wektory słów: Word2Vec

• Klastrowanie tekstów z wykorzystaniem algorytmu t-SNE

• Konsultacje wyboru tematu i metodologii do case study

• Prezentacja case study wykorzystującego wybraną technikę poznaną w trakcie kursu (2 zajęcia)

Bibliography: (in Polish)

Hobson Lane Cole Howard, Hannes Max Hapke (2021),

Przetwarzanie języka naturalnego w akcji. Rozumienie,

analiza i generowanie tekstu w Pythonie na przykładzie

języka angielskiego, Wydawnictwo Naukowe PWN

Learning outcomes: (in Polish)

WIEDZA

• Student zna popularne zastosowania języka Python w różnych obszarach badawczych

• Student zna podstawowe biblioteki służące do analizy tekstu w języku Python

• Student zna popularne metody analizy tekstu stosowane przy użyciu języka Python

• Student zna możliwości oraz ograniczenia wynikające z pracy z danymi sieciowymi

UMIEJĘTNOŚCI

- Student potrafi stworzyć i zarządzać bazą danych w języku Python

- Student umie przeanalizować duży zbiór tekstowy przy użyciu technik text miningowych

- Student umie sprawnie wizualizować dane z wykorzystaniem dobrych praktyk prezentacji

KOMPETENCJE SPOŁECZNE

- Student jest zaznajomiony z zasadami etycznego oraz legalnego przetwarzania danych

Assessment methods and assessment criteria: (in Polish)

Prezentacja końcowa

Classes in period "Summer semester 2023/24" (in progress)

Time span: 2024-02-19 - 2024-06-16
Selected timetable range:
Navigate to timetable
Type of class:
Seminar, 30 hours more information
Coordinators: Kristóf Gyódi
Group instructors: Kristóf Gyódi
Students list: (inaccessible to you)
Examination: Course - Grading
Seminar - Grading
Course descriptions are protected by copyright.
Copyright by University of Warsaw.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
contact accessibility statement USOSweb 7.0.3.0 (2024-03-22)