Komplexität literarischer Werke

Aus Kallimachos
Version vom 15. Mai 2020, 14:09 Uhr von Gaede (Diskussion | Beiträge) (Förderphase II)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu:Navigation, Suche

Komplexität literarischer Texte aus stilometrischer Sicht

 Bilder und Texte auf dem Weg ins digitale Zeitalter

Komplexität literarischer Texte aus stilometrischer Sicht

Die Ergebnisse der ersten Projektphase zeigen, dass das im Text kodierte Autorsignal bereits mit relativ einfachen stilometrischen Methoden wie den Delta-Maßen erkannt und erfolgreich zur Autorschaftsattribution genutzt werden kann. Darauf aufbauend soll in der zweiten Projektphase die sprachliche und stilistische Komplexität literarischer Werke modelliert werden, die weitgehend komplementär zu dem in Delta-Maßen erfassten Autorsignal ist. Als angenommener Indikator für hohe Literatur ist die Komplexität der Sprache eines Werkes auch aus literaturwissenschaftlicher Sicht relevant.

In der Forschungsliteratur findet sich bereits eine größere Bandbreite von Ansätzen, die "Komplexität" von Literatur aus verschiedenen Perspektiven mess- und objektivierbar zu machen. Obwohl viele dieser Komplexitätsmaße auch in zahlreichen stilometrischen Arbeiten als Merkmale herangezogen werden, sind die ihnen zugrunde liegenden mathematischen Modelle nicht sauber ausgearbeitet. So werden Zufallsschwankungen der jeweiligen Maße meist überhaupt nicht berücksichtigt, so dass keine Aussagen über die Signifikanz beobachteter Unterschiede getroffen werden können. Darüber hinaus hängen viele Komplexitätsmaße, z.B. die Vokabulargröße, systematisch von der Textlänge ab, können durch typographische Konventionen oder Schreibfehler verzerrt werden, sind von einzelnen hochfrequenten Typen beeinflusst, usw.

Ziele

  1. Die Entwicklung robuster Maße für die lexikalische Komplexität (vocabulary richness) zu entwickeln, die nicht von Textlänge und hochfrequenten Typen beeinflusst werden. Dabei müssen auch Zufallsschwankungen systematisch erfasst werden, um Beobachtungen durch Signifikanztests und Konfidenzintervalle absichern zu können. In Simulationsexperimenten und empirischen Studien wird untersucht, inwieweit diese Maße auch für kürzere Texte und Textausschnitte zuverlässige Ergebnisse liefern können.
  2. Erweiterung des Komplexitätsbegriffs über die vocabulary richness hinaus. Ansatzpunkte dafür sind u.a. die Produktivität von Wortverbindungen, die Verwendung habitueller und stereotyper Kollokationen, die semantische Kohärenz von Texten (die z.B. mit distributionellen Modellen erfasst werden kann), sowie die Repetitivität der Texte (auf Basis etablierter Verfahren zur Erkennung von text reuse). Wie bei der vocabulary richness ist auch hier die Robustheit der entwickelten Methoden und die Signifikanz von Ergebnissen abzusichern. Diese erweiterten Komplexitätsmaße versprechen insbesondere eine Anwendbarkeit auf kürzere Textfragmente, indem sie externes Wissen heranziehen. Darüber hinaus können weitere, genrespezifische Komplexitätsmaße aus Ergebnissen der anderen Teilprojekte entwickelt werden, z.B. die Komplexität von Figurenbeschreibungen und Figurenkonstellationen.

Anwendungsbereiche

Anhand der im Projekt verfügbaren Korpora werden die neu entwickelten Methoden in verschiedenen Anwendungsszenarien getestet: als zu Delta-Maßen komplementäre Merkmale für die Autorschaftsattribution oder die Identifikation von Übersetzern, zur Herausarbeitung von sprachlichen und stilistischen Besonderheiten hochliterarischer Texte im Gegensatz zu Gebrauchstexten, oder zur datengetriebenen Gruppierung von Texten (clustering) nach Gattungen und Textsorten.

Insbesondere sollen die neu entwickelten Methoden als Kriterium für die Unterscheidung zwischen Hochliteratur und Schemaliteratur herangezogen werden. Sollte sich bestätigen, dass die bisher verwendeten hochliterarischen Texte, auf denen viele Verfahren des Natural Language Processing nur eingeschränkt funktionieren, von messbar größerer Komplexität sind, ließen sich hieraus zwei relevante Ergebnisse herleiten:

  1. Auf Seiten der Literaturwissenschaft wäre eine empirische Bestätigung für den vermuteten schematischeren Aufbau von Schemaliteratur im Vergleich zu Hochliteratur gefunden und es könnten Unterschiede explizit herausgearbeitet werden.
  2. Auf Seiten der Informatik könnte das Herausarbeiten dieser Unterschiede eine Brücke zur Verarbeitung von Hochliteratur schlagen, indem Verfahren entwickelt werden, die diese Unterschiede ausgleichen. Dies könnte beispielsweise bedeuten, dass Fakten, die in Hochliteratur nur implizit vermittelt werden, als Zwischenschritt explizit gemacht werden.

Förderphase II

Eine eingehende Darstellung der Ergebnisse der zweiten Förderphase finden Sie hier.