Uniwersytet Warszawski - Centralny System UwierzytelnianiaNie jesteś zalogowany | zaloguj się
katalog przedmiotów - pomoc

Zaawansowane przeszukiwanie tekstów i korpusów w praktycznej pracy językoznawcy

Informacje ogólne

Kod przedmiotu: 3322-ZPTK-OG Kod Erasmus / ISCED: 09.302 / (0232) Literatura i językoznawstwo
Nazwa przedmiotu: Zaawansowane przeszukiwanie tekstów i korpusów w praktycznej pracy językoznawcy
Jednostka: Katedra Lingwistyki Formalnej
Grupy: Przedmioty ogólnouniwersyteckie humanistyczne
Przedmioty ogólnouniwersyteckie Katedry Lingwistyki Formalnej
Przedmioty ogólnouniwersyteckie na Uniwersytecie Warszawskim
Punkty ECTS i inne: (brak)
zobacz reguły punktacji
Język prowadzenia: polski
Rodzaj przedmiotu:

ogólnouniwersyteckie

Tryb prowadzenia:

w sali

Skrócony opis:

Znajomość wyrażeń regularnych (WR) jest mało popularna wśród filologów i lingwistów pracujących dużo z tekstami elektronicznymi, a zarazem zupełnie podstawowa. WR automatyzują powtarzalne czynności i dobrze stosowane uniemożliwiają popełnianie przeoczeń. Już podstawowa znajomość WR pozwala sprowadzić parogodzinne zadania do parominutowych i jest niezbędna przy rzetelnym przeszukiwaniu korpusów językowych w badaniach lingwistycznych.

Wskazny termin zajęć jest propozycją. proszę o kontakt mailowy w celu ewentualnego dopasowania.

Pełny opis:

Znajomość wyrażeń regularnych (WR) jest mało popularna wśród filologów i lingwistów pracujących dużo z tekstami elektronicznymi, a zarazem zupełnie podstawowa. Jeżeli Zielarstwo w Szkole Magii i Czarodziejstwa porównać do Gramatyki opisowej, wyrażenia regularne byłyby w sylabusie Transmutacji, Latania na miotle oraz Zaklęć. WR automatyzują powtarzalne czynności i dobrze stosowane uniemożliwiają popełnianie przeoczeń. Już podstawowa znajomość WR pozwala sprowadzić wielogodzinne zadania do parominutowych i są niezbędne przy rzetelnym przeszukiwaniu korpusów językowych w badaniach lingwistycznych.

Od uczestników zajęć będę oczekiwał przynoszenia własnych laptopów i systematycznej pracy. Przedmiot adresowany jest do studentów i studentek kierunków okołojęzykoznawczych po kursie gramatyki opisowej dowolnego języka, którzy mają odwagę przypomnieć sobie elementy matematyki szkolnej: logiki i geometrii.

Wskazny termin zajęć jest propozycją. proszę o kontakt mailowy w celu ewentualnego dopasowania.

 • Wyrażenia regularne -- podstawy teoretyczne
  • Gramatyki regularne i automaty skończone
 • Wyrażenia regularne w życiu codziennym
  • Czyszczenie danych kopiowanych ze stron HTML
  • Formatowanie pliku tekstowego jako arkuszu kalkulacyjnego
  • Automatyzowanie pisania tekstów o powtarzalnej strukturze
 • Przeszukiwanie korpusów językowych
  • Narodowy Korpus Języka Polskiego (NKJP) jako podstawowy korpus referencyjny języka polskiego
  • Język wyszukiwarki Poliqarp
  • Tagset NKJP
  • Znajdowanie frekwencji form fleksyjnych wyrażeń i ich ciągów
  • Mierzenie siły kolokacji
  • Lokalne parsowanie na podstawie informacji morfosyntaktycznych
  • Modele przestrzeni wektorowych
 • Automatyczne przetwarzanie tekstów, operacje na łańcuchach (w miarę pozostałego czasu i zainteresowania uczestników)
  • Skrypty w języku Python
  • Automatyzacja pracy na plikach
Literatura:

Bibliografia:

Efekty uczenia się:

Studenci umieją sprawnie przeszukiwać i przetwarzać teksty elektroniczne z wykorzystaniem wyrażeń regularnych, umieją gromadzić i czyścić rozproszone dane tekstowe dostępne w Internecie, efektywnie wykonują powtarzalne zadania edytorskie i korektorskie, swobodnie posługują się zaawansowaną wyszukiwarką korpusową Poliqarp na poziomie podstawowym, z pomocą instrukcji wykonują złożone wyszukiwania w Narodowym Korpusie Języka Polskiego, umieją przeprowadzić analizę kolokacji, rozumieją założenia semantyki dystrybucyjnej i ich wady i mają wiedzę na temat komputerowych metod lingwistyki korpusowej.

Metody i kryteria oceniania:

Wprawki w samodzielnym przeszukiwaniu zadawane do domu, sprawdziany w sali, test końcowy.

Praktyki zawodowe:

Nie

Przedmiot nie jest oferowany w żadnym z aktualnych cykli dydaktycznych.
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet Warszawski.