Szenen und Handlung

Aus Kallimachos
Version vom 15. Mai 2020, 14:09 Uhr von Gaede (Diskussion | Beiträge)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Wechseln zu:Navigation, Suche
[bearbeiten]

 Bilder und Texte auf dem Weg ins digitale Zeitalter

Szenen und Handlung

Bei den Vorarbeiten zur Gattungsklassifikation und Erkennung von Happy Ends zeigte sich bereits, dass das Erkennen von Handlungsmustern eine wesentliche Voraussetzung für die automatische Unterscheidung von bestimmten Gattungen ist. Die Analyse von Handlungsstrukturen stellt automatische Verfahren allerdings vor besondere Herausforderungen, da diese Strukturen oft recht abstrakt sind.

Ungeklärt ist zur Zeit etwa noch, was die grundlegende Einheit der Analyse sein soll. Hierzu bieten sich Szenen (im narratologischen Sinne) als Einheiten an, die sich vergleichsweise zuverlässig ermitteln lassen. Welche Rolle eine Szene in einer Handlung spielt, kann anschließend über ein Clustering vieler Szenen aus Texten der gleichen Gattung aufgrund von LDA sowie Wort-, Satz- und Absatz-Embeddings ermittelt werden. Auf diese Weise soll die Handlung auf eine Sequenz von Szenen reduziert werden, die aufgrund der semantischen Analyse aligniert werden können.

In einem ersten Schritt wird hierzu ein Korpus von narrativen Texten manuell segmentiert, um auf dieser Grundlage automatische Verfahren zur Szenenenerkennung zu entwickeln und evaluieren zu können. Ein Werkzeug zur automatischen Erkennung von Szenen ist neben der Analyse von Handlungsabläufen auch in weiteren Anwendungngsbereichen, etwa bei der Koreferenzanalyse, der Erkennung von Redewiedergabe, Raum- und Zeiterkennung usw. Neben den Szenen sind auch Veränderungen anderer strukturgebender Elemente wie der Figurenkonstellation über den Verlauf eines Romans von Interesse. Hierfür sollen Methoden entwickelt werden, die in der Lage sind, verschiedene Romane hinsichtlich ähnlicher Handlungsstrukturen zu vergleichen.

Förderphase II

Eine eingehende Darstellung der Ergebnisse der zweiten Förderphase finden Sie hier.

Der Begriff der Szene

Das Erkenntnisziel dieses Teilprojekts betrifft vor allem die Unterteilung des Textkorpus in Handlungsabschnitte, anhand derer als langfristiges Ziel der Handlungsverlauf über einen Roman hinweg repräsentiert werden soll. Neben expliziten Layout-Abschnitten wie Kapiteln oder Absätzen bieten Szenen hier einen ersten Ansatzpunkt. Hierfür ist aber zunächst eine klare Definition einer Szene notwendig, aus der anschließend Annotations-Guidelines herausgearbeitet werden können. Es bieten sich zwei Definitionen für Szenen an:

  1. Eine literaturwissenschaftliche Definition geht davon aus, dass eine Szene eine Einheit ist, bei der erzählte Zeit und Erzählzeit zur Deckung kommen.
  2. Da diese Definition sehr schwer durch den Computer zu erfassen ist, verwenden wir eine pragmatischere Definition, nach der ein Szenenwechsel eine Änderung in Figurenkonstellation, Ort oder Zeitpunkt darstellt.

Wir gehen davon aus, dass man aufgrund der beiden Definitionen weitgehend zu äquivalenten Ergebnissen kommt, wobei letztere aber deutlich einfacher automatisch zu erfassen ist.

Annotation eines Goldstandards

Anhand der o.g. Definition werden zunächst in einem manuellen Annotationsprozess literarische Werke in Szenen aufgeteilt, um ein vollständig autarkes Arbeiten der Teilgruppen zu ermöglichen und dennoch einem gemeinsamen, übergeordneten Ziel zuzuarbeiten. Durch diesen Arbeitsschritt entsteht zugleich auch ein manuell ausgezeichneter "Goldstandard", der für die literarische Domäne einzigartig ist und auch über die Grenzen der Domäne hinaus von großem Nutzen sein kann. Anhand der manuell annotierten Szenengrenzen kann dann ein maschinelles Lernverfahren trainiert werden, um Szenen für weitere Romane automatisch zu erkennen.

Modellierung von Handlungsabläufen

Weiterhin werden Modelle entwickelt, die einen Roman als eine Abfolge von Szenen verstehen und darauf aufbauend beispielsweise Beziehungen zwischen Figuren dynamisch modellieren können. Um die Beziehungen zu erkennen, können zunächst einfache Baselinemodelle angewendet werden, die im weiteren Verlauf durch genauere Modelle ersetzt werden. Es können alle bisher entwickelten Methoden zur Quantitativen Textanalyase um den zeitlichen Verlauf über den Roman hinweg erweitert werden. Dies schließt beispielsweise die Sentiment Analysis sowie die Erkennung von Themen mittels Topic Modelling bzw. Word-, Sentence, Paragraph-Embeddings ein. So können die erkannten Szenengrenzen dabei helfen, wichtige Ereignisse in Romanen anhand einer lokalen Änderung entsprechender charakteristischer Merkmale im Text zu identifizieren.

Ein weiterer Aspekt der Untersuchung kann sich auf die Chronologie der Szenen beziehen. Literarische Werke werden nicht immer in chronologischer Reihenfolge erzählt, oft entstehen durch z.B. Rückblenden zeitliche Sprünge. Eine Analyse dieser zeitlichen Abfolgen könnte dazu beitragen, die chronologische Ordnung wiederherzustellen, um damit zu gewährleisten, dass die extrahierten Informationen korrekt verwertet werden. Um eine Szene in den zeitlichen Verlauf des Romans einzuordnen, werden bestehende Komponenten wie HeidelTime (Strötgen/Gertz 2013) verwendet und neue, angepasste Verfahren entwickelt.

Integration in den Workflow

Alle oben beschriebenen Methoden werden anschließend in einen prototypischen UIMA Workflow eingebunden. Die extrahierten Informationen werden in die bestehende Annotationsumgebung ATHEN eingebunden und gegebenenfalls neue Ansichten zur Visualisierung entwickelt.