Uniwersytet Warszawski - Centralny System Uwierzytelniania
Strona główna

Zaawansowane przeszukiwanie tekstów i korpusów w praktycznej pracy językoznawcy

Informacje ogólne

Kod przedmiotu: 3322-ZPTK-OG
Kod Erasmus / ISCED: 09.302 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0232) Literatura i językoznawstwo Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu: Zaawansowane przeszukiwanie tekstów i korpusów w praktycznej pracy językoznawcy
Jednostka: Katedra Lingwistyki Formalnej
Grupy: Przedmioty ogólnouniwersyteckie humanistyczne
Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej
Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim
Punkty ECTS i inne: (brak) Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

ogólnouniwersyteckie

Tryb prowadzenia:

w sali

Skrócony opis:

Znajomość wyrażeń regularnych (WR) jest mało popularna wśród filologów i lingwistów pracujących dużo z tekstami elektronicznymi, a zarazem zupełnie podstawowa. WR automatyzują powtarzalne czynności i dobrze stosowane uniemożliwiają popełnianie przeoczeń. Już podstawowa znajomość WR pozwala sprowadzić parogodzinne zadania do parominutowych i jest niezbędna przy rzetelnym przeszukiwaniu korpusów językowych w badaniach lingwistycznych.

Wskazny termin zajęć jest propozycją. proszę o kontakt mailowy w celu ewentualnego dopasowania.

Pełny opis:

Znajomość wyrażeń regularnych (WR) jest mało popularna wśród filologów i lingwistów pracujących dużo z tekstami elektronicznymi, a zarazem zupełnie podstawowa. Jeżeli Zielarstwo w Szkole Magii i Czarodziejstwa porównać do Gramatyki opisowej, wyrażenia regularne byłyby w sylabusie Transmutacji, Latania na miotle oraz Zaklęć. WR automatyzują powtarzalne czynności i dobrze stosowane uniemożliwiają popełnianie przeoczeń. Już podstawowa znajomość WR pozwala sprowadzić wielogodzinne zadania do parominutowych i są niezbędne przy rzetelnym przeszukiwaniu korpusów językowych w badaniach lingwistycznych.

Od uczestników zajęć będę oczekiwał przynoszenia własnych laptopów i systematycznej pracy. Przedmiot adresowany jest do studentów i studentek kierunków okołojęzykoznawczych po kursie gramatyki opisowej dowolnego języka, którzy mają odwagę przypomnieć sobie elementy matematyki szkolnej: logiki i geometrii.

Wskazny termin zajęć jest propozycją. proszę o kontakt mailowy w celu ewentualnego dopasowania.

  • Wyrażenia regularne -- podstawy teoretyczne
    • Gramatyki regularne i automaty skończone
  • Wyrażenia regularne w życiu codziennym
    • Czyszczenie danych kopiowanych ze stron HTML
    • Formatowanie pliku tekstowego jako arkuszu kalkulacyjnego
    • Automatyzowanie pisania tekstów o powtarzalnej strukturze
  • Przeszukiwanie korpusów językowych
    • Narodowy Korpus Języka Polskiego (NKJP) jako podstawowy korpus referencyjny języka polskiego
    • Język wyszukiwarki Poliqarp
    • Tagset NKJP
    • Znajdowanie frekwencji form fleksyjnych wyrażeń i ich ciągów
    • Mierzenie siły kolokacji
    • Lokalne parsowanie na podstawie informacji morfosyntaktycznych
    • Modele przestrzeni wektorowych
  • Automatyczne przetwarzanie tekstów, operacje na łańcuchach (w miarę pozostałego czasu i zainteresowania uczestników)
    • Skrypty w języku Python
    • Automatyzacja pracy na plikach
Literatura:

Bibliografia:

Efekty uczenia się:

Studenci umieją sprawnie przeszukiwać i przetwarzać teksty elektroniczne z wykorzystaniem wyrażeń regularnych, umieją gromadzić i czyścić rozproszone dane tekstowe dostępne w Internecie, efektywnie wykonują powtarzalne zadania edytorskie i korektorskie, swobodnie posługują się zaawansowaną wyszukiwarką korpusową Poliqarp na poziomie podstawowym, z pomocą instrukcji wykonują złożone wyszukiwania w Narodowym Korpusie Języka Polskiego, umieją przeprowadzić analizę kolokacji, rozumieją założenia semantyki dystrybucyjnej i ich wady i mają wiedzę na temat komputerowych metod lingwistyki korpusowej.

Metody i kryteria oceniania:

Wprawki w samodzielnym przeszukiwaniu zadawane do domu, sprawdziany w sali, test końcowy.

Praktyki zawodowe:

Nie

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.
Krakowskie Przedmieście 26/28
00-927 Warszawa
tel: +48 22 55 20 000 https://uw.edu.pl/
kontakt deklaracja dostępności USOSweb 7.0.3.0 (2024-03-22)