II CYKL WYKŁADÓW I WARSZTATÓW CLARIN-PL

Politechnika Wrocławska i CLARIN-PL Wrocławskie Centrum Sieciowo-Superkomputerowe zapraszają w dniach 18-20 maja 2015 roku na warsztaty "CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych". Dotyczyć one będą praktycznego wykorzystania cyfrowych narzędzi do ilościowej i jakościowej analizy języka. Przeznaczone są dla badaczy z obszaru nauk humanistycznych i społecznych oraz dla tłumaczy. 

 

Warsztaty odbędą się w Centrum Kongresowym, bud. D20, ul. Janiszewskiego 8, sala 114.

 

Prowadzący to pracownicy naukowi Politechniki Wrocławskiej, Uniwersytetu Łódzkiego, Instytutu Podstaw Informatyki PAN, Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych, Uniwersytetu Wrocławskiego, Instytutu Języka Polskiego PAN: dr Anna Andrzejczuk, dr hab. Maciej Eder, dr hab. Elżbieta Hajnicz, mgr inż. Paweł Kędzia, mgr inż. Jan Kocoń, mgr inż. Danijel Korzinek, dr hab. Krzysztof Marasek, dr inż. Michał Marcińczuk, dr Marek Maziarz, dr Marcin Oleksy, mgr Agnieszka Patejuk, prof. dr hab. Adam Pawłowski, dr Piotr Pęzik, dr inż. Maciej Piasecki, dr hab. Adam Przepiórkowski, dr Ewa Rudnicka, dr inż. Tomasz Walkowiak, dr Marcin Woliński.

 

CLARIN-PL to polskie konsorcjum naukowe będące częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (Common Language Resources & Technology Infrastructure), udostepniającej zasoby językowe oraz elektroniczne narzędzia do automatycznego przetwarzania języka, które mogą znaleźć zastosowanie w badaniach opartych na gromadzeniu i analizie dużych ilości tekstowych materiałów źródłowych.

Główna część warsztatów będzie poświęcona wykorzystaniu narzędzi i zasobów językowych w pracach badawczych z zakresu nauk humanistycznych i społecznych. Zapraszamy pracowników naukowych do udziału w zajęciach, podczas których będą mogli zapoznać się m.in. z systemami do klasyfikacji tekstu, wspomagającymi tworzenie słowników dziedzinowych na podstawie tekstów oraz do badań związanych z nazwami własnymi i indeksami, które stanowią pomoc w pracach leksykograficznych. Tematem warsztatów będzie gromadzenie i udostępnianie korpusów oraz możliwość wykorzystania narzędzi CLARIN-PL w pracy humanisty (przegląd narzędzi, zasobów i aplikacji – potencjalne zastosowania).

Druga grupa zagadnień dotyczy wykorzystania korpusów językowych (oraz ekstrakcji i analizy frazeologii z korpusów) w pracy tłumaczy. Przyjrzymy się m.in. bazie równoległych tekstów polskich i angielskich, uczestnicy poznają pojęcia ekwiwalencji frazeologicznej oraz sposoby zastosowania korpusów do jej weryfikacji.
Serdecznie zapraszamy wszystkich naukowców, których interesuje wykorzystanie nowych metod, technik i narzędzi w praktyce badawczej. Nie jest wymagana wcześniejsza znajomość zagadnień z zakresu lingwistyki korpusowej. Dostęp do opracowanych narzędzi i zasobów językowych oraz wykorzystanie technologii językowych w naukach humanistycznych otwierają nowe ścieżki działań w badaniach literaturoznawczych i językoznawczych oraz w pracach leksykograficznych i translatologicznych.

 

Osoby zainteresowane udziałem w warsztatach prosimy o przesłanie zgłoszenia na adres clarin-pl@pwr.edu.pl do dnia 8 maja 2015. Informujemy, że ze względów technicznych liczba miejsc jest ograniczona. Pierwszeństwo będą miały osoby, które z powodu braku miejsc nie mogły wziąć udziału w pierwszej edycji warsztatów. Pozostałe osoby będą przyjmowane według kolejności zgłoszeń. Warsztaty będą miały charakter praktyczny, niezbędne zatem będzie przyniesienie własnych laptopów. Jeżeli chcą Państwo uczestniczyć tylko w wybranych dniach warsztatów, proszę je wskazać w zgłoszeniu. Udział w warsztatach jest bezpłatny.
Następna edycja warsztatów planowana jest w Krakowie, w dniach 17-19 czerwca 2015.

 

PROGRAM
Politechnika Wrocławska, Centrum Kongresowe, bud. D20, ul. Janiszewskiego 8, sala 114

 

PONIEDZIAŁEK 18 maja

 

Infrastruktura naukowa

 

9.00 - 10.00 Wykład
Centrum Technologii Językowych CLARIN-PL: deponowanie i upowszechnianie zasobów i narzędzi językowych dla języka polskiego
Prowadzący: dr inż. Tomasz Walkowiak i dr inż. Maciej Piasecki

Centrum Technologii Językowych CLARIN-PL, uruchomione na Politechnice Wrocławskiej, jest węzłem ogólnoeuropejskiej infrastruktury CLARIN ERIC, adresowanej do badaczy nauk humanistycznych i społecznych. Celem wykładu jest przegląd usług udostępnianych użytkownikom przez CLARIN-PL oraz pokazanie, w jaki sposób mogą oni wykorzystać Centrum do deponowania i archiwizacji własnych zasobów językowych (np. korpusów, słowników). Omówione zostaną standardy metadanych stosowane w Centrum, a także system logowania w ogólnopolskiej federacji uwierzytelniania, gwarantującej bezpieczeństwo przechowywania danych i umożliwiającej logowanie na podstawie własnego konta z jednostki macierzystej (jeżeli przystąpiła ona do federacji).

 

Narzędzia korpusowe

 

10.00 - 10.45 Wykład
Gromadzenie korpusów, anotowanie i udostępnianie
Prowadzący: dr Marcin Oleksy i mgr inż. Jan Kocoń

Ważnym zadaniem Centrum Technologii Językowych CLARIN-PL jest przechowywanie i udostępnianie korpusów oraz dostarczenie narzędzi umożliwiających wygodne prace korpusowe. Podczas wykładu słuchacze zapoznają się z podstawowymi zagadnieniami dotyczącymi przechowywania w Centrum własnych korpusów: ustalaniem odpowiedniej licencji, wyborem właściwego formatu, opisem metadanymi, możliwościami przetwarzania i znakowania korpusów w systemie Inforex, użyciem narzędzi do gromadzenia korpusów bezpośrednio ze źródeł internetowych.
W ramach zajęć warsztatowych uczestnicy samodzielnie zdeponują mały korpus testowy, wgrają go do systemu Inforex i poddadzą wstępnemu przetwarzaniu. Będą także anotować korpus oraz wykonają statystyczną analizę anotacji i utworzą podstawowe listy frekwencyjne.

 

10.45 - 11.00 Przerwa na kawę

 

11.00 - 12.30 Warsztaty – Gromadzenie korpusów, anotowanie i udostępnianie

 

12.30 - 13.30 Wykład
Narzędzia do automatycznej analizy odniesień w tekstach
Prowadzący: dr inż. Michał Marcińczuk i mgr inż. Jan Kocoń

W ramach CLARIN-PL powstają narzędzia automatycznie rozpoznające w tekstach nazwy własne i wyrażenia określające relacje czasowe. Tematem wykładu będzie prezentacja tych narzędzi oraz ich wykorzystanie w automatycznym znakowaniu korpusów. Prowadzący pokażą, w jaki sposób przeglądać i poprawiać automatyczną anotację, jak zapisywać wyniki analizy, jak tworzyć słowniki najczęstszych wystąpień nazw własnych i wyrażeń czasowych.
Podczas warsztatów uczestnicy będą mogli wykorzystać zdobytą wiedzę do samodzielnej analizy korpusu testowego.

 

13.30 - 14.15 Przerwa obiadowa

 

14.15 - 15.45 Warsztaty – Narzędzia do automatycznej analizy odniesień w tekstach

 

15.45 - 16.30 Wykład
Korpusy mowy i narzędzia do ich przetwarzania
Prowadzący: dr hab. Krzysztof Marasek i mgr inż. Danijel Korzinek

W ramach CLARIN-PL opracowano szereg narzędzi wspomagających prace z nagraniami mowy polskiej. Obejmują one możliwość transkrypcji fonetycznej tekstu, detekcji mowy w sygnale audio, wyszukiwania specyficznych zjawisk akustycznych (np. muzyki) oraz podziału nagranych wypowiedzi na wypowiedziane przez poszczególnych mówców. Istnieje także możliwość czasowego dopasowania transkrypcji do nagrania, co umożliwia dokładną analizę fonetyczną. W ramach warsztatów uczestnicy zapoznają się z opracowanymi narzędziami i sposobami ich użycia.

 

16.30 - 16.45 Przerwa na kawę

 

16.45 - 17.30 Warsztaty – Korpusy mowy i narzędzia do ich przetwarzania

 

WTOREK 19 MAJA

 

9.00 - 9.45 Wykład
ChronoPress (Chronologiczny Korpus Polskich Teksów Prasowych) i jego wykorzystanie w badaniach
Prowadzący: prof. dr hab. Adam Pawłowski
Przedmiotem wykładu będzie podejście sekwencyjne w analizie danych tekstowych. We wstępie zostaną krótko omówione pojęcia szeregu czasowego, jego składowych (trend, oscylacje periodyczne i losowe) oraz niektórych parametrów opisowych (średnia, autokorelacja, korelacja wzajemna). W części praktycznej zostaną krótko przedstawione publicznie dostępne narzędzia analizy trendów leksykalnych (m.in. Google Trends), a następnie, jako główny element prezentacji, omówiony zostanie Chronologiczny Korpus Prasy Polskiej ChronoPress, rozwijany w ramach projektu CLARIN-PL.
Słuchacze będą mogli zapoznać się z różnymi możliwościami wykorzystania korpusu ChronoPress, będą też mogli zaproponować własne scenariusze zastosowań.

 

Narzędzia słownikowe

 

9.45 - 10.45 Wykład
Słowosieć 3.0 – leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń
Prowadzący: dr Marek Maziarz, mgr inż. Paweł Kędzia i dr inż. Maciej Piasecki

Słowosieć 3.0 to leksykalna sieć semantyczna języka polskiego i największy jak dotąd tego typu słownik (wordnet) na świecie, mający liczne i rozmaite zastosowania. Podczas wykładu słuchacze zapoznają się ze sposobem opisu znaczeń leksykalnych w Słowosieci. Zaprezentowany zostanie system WordnetLoom, który służy do przeglądania i edycji Słowosieci, oraz narzędzia działające z wykorzystaniem Słowosieci, umożliwiające wyznaczanie miar podobieństwa znaczeniowego i automatyczne ujednoznacznianie znaczeń słów występujących w tekście.
Uczestnicy warsztatów zainstalują aplikację WordnetLoom i za jej pomocą będą przeglądać Słowosieć. Będą mogli również śledzić frekwencję znaczeń wybranych przez siebie wyrazów w korpusie stenogramów sejmowych (Sejmu Rzeczypospolitej ostatnich kadencji), jak również wygenerować listę frekwencyjną znaczeń wyrazów (np. w konkretnym okresie).

 

10.45 - 11.00 Przerwa na kawę

 

11.00 - 12.00 Warsztaty – Słowosieć 3.0

 

12.00 - 12.30 Wykład
Dwujęzyczna Słowosieć – możliwości wykorzystania w pracy tłumacza
Prowadząca: dr Ewa Rudnicka
Znaczenia leksykalne w Słowosieci zostały połączone z odpowiadającymi im znaczeniami w sieci języka angielskiego – Princeton Wordnet. W ramach wykładu omówione zostaną różnice w sposobie opisu między obiema sieciami oraz przedstawiony zostanie system relacji międzyjęzykowych, wspierających pracę tłumacza. Podczas warsztatów uczestnicy zajmą się analizą konkretnych problemów tłumaczeniowych i spróbują je rozwiązać przy użyciu relacji międzyjęzykowych.

 

12.30 - 13.30 Warsztaty – Dwujęzyczna Słowosieć

 

13.30 - 14.15 Przerwa obiadowa

 

14.15 - 15.00 Wykład
Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych
Prowadzący: dr inż. Maciej Piasecki i dr Marek Maziarz

W ramach CLARIN-PL opracowane zostało narzędzie, które rozpoznaje w tekstach kolokacje – potencjalne jednostki leksykalne (zestawienia, terminy i związki frazeologiczne). Umożliwia ono (pół)automatyczne tworzenie (na podstawie dostarczonych korpusów tekstu) słowników takich jednostek, opisanych pod względem leksykalno-składniowym i semantycznym.
Uczestnicy warsztatów nauczą się wydobywać z korpusu testowego kolokacje i za pomocą dostępnego systemu stworzą własny słownik połączeń wyrazowych.

 

15.00 - 16.00 Warsztaty – Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych

 

16.00 - 16.15 Przerwa na kawę

 

16.15 - 17.00 Wykład
Korpusy referencyjne i równoległe w warsztacie tłumacza
Prowadzący: dr Piotr Pęzik

Korpusy stanowią ważny element warsztatu tłumacza, a ich nieustanny rozwój stwarza coraz lepsze możliwości zastosowań. W ramach wykładu przedstawione zostaną: Narodowy Korpus Języka Polskiego oraz powstały w ramach CLARIN-PL polsko-angielski korpus równoległy Paralela. Wyjaśnione zostaną pojęcia ekwiwalencji frazeologicznej, syntagmy i frazemu.
Podczas warsztatów uczestnicy zapoznają się z działaniem wyszukiwarki SlopeQ dla NKJP oraz dowiedzą się, jak stosować korpusy NKJP i Paralela do weryfikacji ekwiwalencji frazeologicznej.

 

17.00 - 18.00 Warsztaty – Korpusy referencyjne i równoległe w warsztacie tłumacza

 

ŚRODA 20 MAJA

 

Narzędzia do badań nad tekstem

 

9.00 - 9.30 Wykład
Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego
Prowadzący: dr Marcin Woliński i dr Anna Andrzejczuk

Analiza fleksyjna (morfologiczna) w przypadku języka o bogatej odmianie jest ważnym etapem wstępnego przetwarzania tekstu, niezbędnym większości technik inżynierii lingwistycznej. Trudno sobie wyobrazić przeszukiwanie korpusu języka polskiego bez wcześniejszej analizy fleksyjnej tekstów. Na wykładzie zostanie przedstawiony Morfeusz 2 – opracowany w ramach CLARIN-PL analizator i generator fleksyjny dla języka polskiego.

 

9.30 - 10.15 Warsztaty
Tworzenie słowników dziedzinowych dla analizatora Morfeusz 2
Prowadząca: dr Anna Andrzejczuk

Tematem warsztatów będzie tworzenie dziedzinowego słownika fleksyjnego za pomocą narzędzia Kuźnia. Kuźnia jest narzędziem z interfejsem WWW, wspomagającym zespołowe tworzenie słowników fleksyjnych. Utworzony słownik zostanie następnie użyty w programie Morfeusz 2.

 

10.15 - 10.30 Przerwa na kawę

 

10.30 - 11.05 Wykład
Słownik walencyjny języka polskiego
Prowadząca: dr hab. Elżbieta Hajnicz

Wykład zostanie poświęcony elektronicznemu słownikowi walencyjnemu Walenty, który opisuje tysiące polskich leksemów (głównie czasowników) ze względu na wymagane przez nie elementy struktur składniowo-semantycznych. Omówione zostaną zjawiska walencyjno-składniowe uwzględnione w Walentym, takie jak przypadek strukturalny, koordynacja, kontrola składniowa oraz sposób ich reprezentacji.

 

11.05 - 11.45 Warsztaty
Prowadząca: dr hab. Elżbieta Hajnicz

Podczas warsztatów pokazany zostanie sposób zdalnego korzystania z Walentego. Skupimy się z jednej strony na sposobie wizualizacji pojedynczego hasła, a z drugiej strony na różnych wariantach.

 

11.45 - 12.00 Przerwa na kawę

 

12.00 - 12.45 Wykład
Parsowanie składniowe LFG i jego zastosowania
Prowadzący: dr hab. Adam Przepiórkowski i mgr Agnieszka Patejuk

Automatyczna analiza składniowa zdań, czyli parsowanie składniowe, jest jednym z kluczowych elementów przetwarzania języka naturalnego. Wykład będzie poświęcony parsowaniu składniowemu przy pomocy POLFIE – nowej gramatyki języka polskiego opartej na znanym formalizmie LFG (Lexical Functional Grammar). Zostaną przedstawione podstawowe informacje o LFG, struktura gramatyki POLFIE oraz sposób wykorzystania w niej innych zasobów językowych, prezentowanych wcześniej podczas warsztatów (np. Morfeusza, NKJP czy Walentego). Uczestnicy zapoznają się z możliwościami automatycznej analizy składniowej tekstu z wykorzystaniem gramatyki POLFIE. Przedstawiony zostanie również tak zwany bank drzew, czyli zbiór wzorcowych opisów składniowych dużej liczby wybranych polskich zdań.

 

12.45 - 13.45 Warsztaty – Parsowanie składniowe LFG i jego zastosowania

 

13.45 - 14.30 Przerwa obiadowa

 

14.30 - 15.15 Wykład
Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes
Prowadzący: dr Piotr Pęzik

Korpus udostępniony przez wyszukiwarkę Spokes stanowi ważny zasób w badaniach nad rejestrem konwersacyjnym języka polskiego. Wykład poświęcony zostanie charakterystyce nieformalnej polszczyzny mówionej oraz wybranym aspektom stylistycznym na przykładzie formuł konwersacyjnych odnotowanych w korpusie.
Uczestnicy warsztatów zapoznają się z wyszukiwarką Spokes (http://spokes.clarin-eu.pl) oraz z metodami badań języka mówionego z wykorzystaniem danych korpusowych.

 

15.15 - 16.00 Warsztaty – Rejestr konwersacyjny polszczyzny

 

16.00 - 16.15 Przerwa na kawę

 

16.15 - 17.15 Wykład
System do klasyfikacji tekstu i analizy stylometrycznej
Prowadzący: dr inż. Maciej Piasecki i dr hab. Maciej Eder

W ramach CLARIN-PL powstał system, który wspiera badania stylometryczne poprzez automatyczną klasyfikację tekstów oraz ich semantyczną anotację i analizę.
Celem wykładu jest prezentacja elementów systemu (od wydobywania cech tekstu po interpretację wyników analizy), wskazanie jego możliwości i ograniczeń oraz omówienie wybranych przykładów zastosowań.
Podczas zajęć warsztatowych uczestnicy wprowadzą do systemu przykładowy korpus, przeprowadzą analizę, uwzględniając różne parametry, i zinterpretują uzyskane wyniki. Przetestują także działanie przygotowanych wcześniej klasyfikatorów i przeanalizują cechy, charakterystyczne dla klas semantycznych zdefiniowanych w tekstach.

 

17.15 - 18.00 Warsztaty – System do klasyfikacji tekstu i analizy stylometrycznej

 

(nadesłała: Monika Grabowska, zamieściła na stronie: Natalia Paprocka)