Agnieszka Karlińska, Maciej Maryl

Instytut Badań Literackich Polskiej Akademii Nauk

Celem wystąpienia jest przedyskutowanie wyników analizy Korpusu Dyskursu Literaturoznawczego (KDL) uzyskanych za pomocą Grafowego Literackiego Eksploratora Maszynowego (GoLEM) i prezentacja wniosków dotyczących dostosowywania narzędzi językoznawczych do badań literackich. GoLEM to infrastruktura do zaawansowanej analizy i wizualizacji powiązań między terminami, bytami i słowozbiorami (tematami) w wymiarze synchronicznym i diachronicznym, budowana przez Instytut Badań Literackich i Politechnikę Wrocławską w ramach projektu DARIAH-PL. 

W wystąpieniu przedstawimy założenia teoretyczne i metodologiczne stojące u podstaw GoLEM-a, a także omówimy wyzwania związane z wykorzystaniem metod i narzędzi wypracowanych na gruncie językoznawstwa komputerowego do pytań badawczych stawianych przez literaturoznawców. 

GoLEM pomyślany został jako odpowiedź na problem rozproszenia narzędzi przetwarzania języka naturalnego dla języka polskiego i brak ich dostosowania do konkretnych zadań literaturoznawczych. Poszczególne narzędzia zostaną połączone w ramach spójnego workflow i dostosowane do potrzeb literaturoznawców oraz specyfiki analizowanych przez nich tekstów. Infrastruktura zwiększy także kontrolę użytkowników nad materiałem poprzez ścisłe powiązanie analizowanych tekstów z metadanymi. 

W prezentacji skupimy się na trzech typach analiz:

1. Analiza bytów: rozpoznawanie bytów nazwanych, w tym m.in. nazw osób (autorzy, tłumacze, badacze literatury i postacie literackie), utworów, miejsc (miejsca rzeczywiste i fikcyjne) i organizacji (grupy literackie, czasopisma literackie i instytucje kultury), analiza częstości ich występowania w korpusie z uwzględnieniem zmian w czasie, analiza relacji między bytami w wybranych całostkach tekstowych i między tekstami lub podkorpusami wyróżnionymi na podstawie metadanych

2. Analiza pojęć: rozpoznawanie terminów literackich i analiza częstości ich występowania w korpusie, w poszczególnych tekstach i w podkorpusach z uwzględnieniem zmian w czasie, analiza zmian znaczenia pojęć w czasie i w obrębie różnych podkorpusów

3. Analiza słowozbiorów (tematów): częściowo nadzorowane modelowanie tematyczne, LDA z uwzględnieniem bytów i terminów literackich

W drugiej części prezentacji zajmiemy się interpretacją wyników. GoLEM pozwoli na śledzenie i wizualizację sieci i przepływów idei, problemów i pojęć w czasie, pomiędzy środowiskami literackimi i badawczymi, pomiędzy dyscyplinami czy z teorii literatury do praktyki artystycznej. Tym samym umożliwi prowadzenie badań interdyscyplinarnych m.in. w horyzoncie studiów nad transferem kulturowym, semantyki historycznej, analityki kulturowej i socjologii wiedzy.

W swoim wystąpieniu pokażemy, w jaki sposób określone pojęcia, byty i tematy “wędrowały” (Bal 2002) pomiędzy autorami. Analizą obejmiemy KDL – korpus tekstów historyczno-, teoretyczno- i krytycznoliterackich z lat 1822–2022, dobranych według ścisłych kryteriów metodologicznych, uwzględniających reprezentatywność i zrównoważenie, jak dotąd cechujące przede wszystkim korpusy językowe. 

Słowa klucze

przetwarzanie języka naturalnego, dyskurs literaturoznawczy, Named Entity Recognition, modelowanie tematyczne, semantyka dystrybucyjna

Bibliografia

Bal, M. 2002. Travelling Concepts in the Humanities. A Rough Guide. Toronto.

Gonen, H., Jawahar, G., Seddah, D., Goldberg, Y. 2020. Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, 538–55.

Labatut, V., Bost, X. 2019. Extraction and Analysis of Fictional Character Networks. ACM Computing Surveys (CSUR) 52, 1–40.

Mickel, A. 2016. Tracing Teams, Texts, and Topics: Applying Social Network Analysis to Understand Archaeological Knowledge Production at Çatalhöyük. J Archaeol Method Theory 23, 1095–1126.