Auf der Grundlage des Roman- und des Dramenkorpus soll die Leserlenkung in Bezug auf die Figuren ermittelt werden. Ausgangspunkt ist die Ermittlung der Figuren durch Techniken der Named Entity Recognition (NER) einschließlich Koreferenz-Auflösung. Auf dieser Grundlage kann eine Sentiment Analysis vorgenommen werden, mit der die expliziten positiven oder negativen Bewertungen der Figuren ermittelt werden können. Die Ergebnisse sind insbesondere in literaturgeschichtlicher Perspektive relevant. Auch für diesen Use Case ist die Signifikanzüberprüfung und menschliche Interpretation der z.T. fehlerbehafteten automatischen Auswertungen unerlässlich.
Informatische Optimierungsansätze betreffen u.a. statistische Modelle für die Verbesserung einzelner Teilschritte, Distributional Clustering für halbüberwachtes Lernen relevanter Begriffsbeziehungen und die Nutzung einer Sentimentressource für das Deutsche. Dabei werden bereits vorhandene Ansätze und Implementierungen der Würzburger Arbeitsgruppen und der Professur für Korpuslinguistik (Erlangen-Nürnberg) miteinander kombiniert.
Eine eingehende Darstellung der Ergebnisse der zweiten Förderphase finden Sie hier.
Die Datengrundlage bilden deutschsprachige Romane aus dem 19. Jahrhundert. Diese stammen hauptsächlich aus Quellen wie der Digitalen Bibliothek von TextGrid oder dem Projekt Gutenberg. Die Erhebung von Metadaten sowie die Annotation von Texten zur Entwicklung und Evaluation neuer Methoden stehen ebenfalls im Fokus.
Im Rahmen dieses Teilprojekts wurde ein Korpus zusammengestellt, das aus Abschnitten aus je 130 zusammenhängenden Sätzen aus ca. 90 deutschsprachigen Romanen besteht. Diese Texte enthalten manuelle Annotationen zu Named Entities sowie Koreferenzen. Eine Veröffentlichung dieses Goldstandards ist geplant.
Zur Erleichterung und Beschleunigung der manuellen Annotation wurde ein Editor entwickelt, der anhand von Regeln bereits potentielle Named Entities vorschlägt, die durch den Annotator akzeptiert oder korrigiert werden können. Auch der Umstand, dass die Textauszeichnung mittels einer komfortablen graphischen Benutzeroberfläche vergenommen werden kann, erleichtert diese Arbeit deutlich.
Die Verarbeitung von literarischen Texten erfordert eine erweiterte Definition von Named Entity, die neben tatsächlichen Namen auch Appellativa wie Berufs- oder Verwandtschaftsbezeichnungen mit einbezieht. Aus diesem Grund erreichen bestehende NER-Systeme keine ausreichende Genauigkeit. Daher wurde mit Hilfe eines Machine Learning Classifiers unter Einbeziehung von word2vec-Features auf Basis des Goldstandards ein Modell entwickelt, das inzwischen einen F1-score von 89,98% erreicht. Die hierfür genutzte Software, zur Benutzung in Kombination mit DKPro, ist auf GitHub verfügbar.
Wie auch bei der NER führen bestimmte Eigenschaften literarischer Texte, wie der größere Anteil direkter Rede oder die erhöhte Häufigkeit von Pronomen, dazu, dass existierende Systeme zur Koreferenzauflösung keine zufriedenstellenden Ergebnisse liefern: Eigennamen lassen sich zwar mit einiger Zuverlässigkeit erkennen, weitere auf die Figur bezogene Bezeichnungen und Pronomen aber zunehmend schwieriger. Daher wurde in Anlehnung an einen Ansatz aus Stanford ein regelbasiertes System entwickelt, das speziell auf die Besonderheiten literarischer Texte eingeht.
Im weiteren Fokus der Arbeit stehen die Erkennung von wörtlicher Rede und die entsprechende Zuordnung von Sprecher und Angesprochenem, die Beschäftigung mit Figurennetzwerken und der Klassifikation von Beziehungen zwischen Figuren, sowie die automatische Charakterisierung von Figuren anhand der ihnen zugeordneten Attribute.
Arbeitsgruppe Data Mining und Information Retrieval
Am Hubland
D-97074 Würzburg
Am Hubland, Bau 8
Tel.: 0931-31 88421
Telefon: 0931/31-80534