Inez Okulska, Krzysztof Skibski

NASK Państwowy Instytut Badawczy, Uniwersytet im. Adama Mickiewicza w Poznaniu

Teksty literackie już od pewnego czasu stają się częścią korpusów badanych za pomocą algorytmów przetwarzania języka naturalnego (NLP). Tworzone są dzięki temu nowe mapy zależności i wpływów autorów i nurtów (Moretti 2005) czy ustalania lub podważania autorstwa (Khan 1981). W polskojęzycznej humanistyce cyfrowej osobne miejsce zajmuje stylometria, rozumiana jako zautomatyzowane analizy rozkładu częstotliwości pojedynczych słów czy łańcuchów leksykalnych (bi- lub trigramy). Prace krakowskich stylometrów (Eder, Rybicki, Kestemont 2016) ukazały ciekawe efekty automatycznego grupowania większych i mniejszych korpusów w odniesieniu do języków i przekładów (Rybicki 2014). Na dalszą eksplorację czeka jednak wciąż potencjał badawczy w zakresie analizy cech morfo-syntaktycznych czy prozodycznych języka w tekstach literackich.

Proponujemy, by na marginesie opracowywania klasycznych oraz neuronowych modeli efektywnej klasyfikacji tekstów (wg przyjętych grup: autorskich, genologicznych, lokalnych twórców, etc.) interpretacji poddać automatyczne decyzje modelu, przyjrzeć się wzorcom, które zaważyły na przynależności do klasy. W tym działaniu istotną rolę odegra odpowiednio opracowana, interpretowalna reprezentacja wektorowa klasyfikowanych tekstów która pozwala uchwycić wybrany zestaw cech lingwistycznych badanych tekstów literackich, poszerzając tym samym wiedzę o wyróżnikach ich stylu. Dzięki temu można będzie przyjrzeć się fenomenowi parodii czy pastiszu, lecz także poczynić kroki w stronę opisu swoistych cech poetyki autorskiej (także z uwzględnieniem swoistej konstrukcji tekstu literackiego – zwłaszcza poetyckiego).

będzie zatem stanowił próbę sprawdzianu narzędzi w ścisłej relacji do przypadków tekstowych. Wykorzystane modele będą opierały się na architekturze lasów losowych oraz sieci neuronowych typu LSTM (Hochreiter 1997).

Słowa klucze

humanistyka cyfrowa, stylometria, uczenie maszynowe, przetwarzanie języka naturalnego, poetyka

Bibliografia

1. Eder, Maciej, Jan Rybicki, and Mike Kestemont. „Stylometry with R: a package for computational text analysis.” The R Journal 8.1 (2016).

2. Hochreiter, Sepp, and Jürgen Schmidhuber. „Long short-term memory.” Neural computation 9.8 (1997): 1735-1780.

3. Kahn, Charles H. „Did Plato Write Socratic Dialogues?.” The Classical Quarterly 31.2 (1981): 305-320.

4. Moretti, Franco. Graphs, maps, trees: abstract models for a literary history. Verso, 2005.

5. Rybicki, Jan. „Pierwszy rzut oka na stylometryczną mapę literatury polskiej.” Teksty drugie 2 (2014): 106-128.