Projektbeschreibung

[bearbeiten]

KALLIMACHOS führt Geisteswissenschaftler, Informatiker und Bibliothekare in einem regionalen Digital Humanities-Zentrum zusammen. Die an der Universität Würzburg vorhandenen Kooperationen und Kompetenzen werden durch Partner am DFKI Kaiserslautern (OCR) und an der Universität Erlangen-Nürnberg (Fachbereich Linguistische Informatik) ergänzt.

Unser Aufgabenschwerpunkt liegt auf der Betreuung digitaler Editionen und quantitativer Analyseverfahren aus dem Bereich des Text Mining, z.B. Stilometrie, Topic Modeling und Named Entity Recognition. Wir bieten unseren Projektpartnern die nötige technische und soziale Infrastruktur, die Geisteswissenschaftler bei der Beantwortung von Forschungsfragen auf der Basis digitaler Methoden unterstützt.

Auf der technischen Seite gehören dazu die Entwicklung und Bereitstellung der benötigten Software-Komponenten und das Erarbeiten prototypischer Arbeitsabläufe, die in bereits vorhandene Infrastrukturen integriert werden. Dabei ist uns gerade auch die langfristige Verfügbarkeit, Pflege und Archivierung der Projekte, Portale und Forschungsdaten ein wichtiges Anliegen.

Außerdem fördern wir durch regelmäßige Workshops und Tagungen den Austausch zwischen den regionalen und überregionalen Digital-Humanities-Projekten. Durch Beratungen und Schulungen führen wir Fachleuten ebenso wie dem akademischen Nachwuchs die Möglichkeiten digitaler Methoden zur Bearbeitung von Forschungsfragen vor Augen und bieten methodische, technische und organisatorische Unterstützung.

[bearbeiten]

Klären: Workflow oder Fortschritt der Workflow-Erstellung

OCR-Modul

Das Modul soll eine automatisierte Vorverarbeitung für die Volltexterstellung bieten. Auf der Grundlage der Arbeiten und Softwarebausteine des DFKI wird die Arbeit im Projekt aus folgenden Schritten bestehen:

Softwaremäßige Integration der bisherigen OCR-Komponenten,
Training von neuen Modellen für historische Druck- und Handschriften,
Entwicklung von Sprachmodellen („Wörterbüchern“) für historische Orthographie,
Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung.

Modul Synoptischer Editor

Unter Fortentwicklung einer bereits als Präsentationswerkzeug in der Virtuellen Bibliothek Würzburg bzw. Franconica Online in mehreren Projekten erprobten Dreifachlupe mit synchronisierten, zoombaren Bildstreifen für Scan, Transkription und Übersetzung werden Komponenten des CK-Editors eingebaut, der mit Plugin Version 4.1.1 nun XML-Unterstützung bietet. Die entsprechend erweiterte WÜsyphus-Dreifachlupe wird so angepasst, dass sie ebenso wie der CK-basierte XML-Editor auch in der TextGrid-Weboberfläche verwendet werden kann: Neben den deutlich mächtigeren TextGrid-XML-Editor für den Spezialanwender tritt damit ein intuitives Web-Editionswerkzeug, das voraussetzungsloser eine manuelle Nachkorrektur der Resultate des automatischen Bildanalyse- und OCR-Moduls formatkonform ermöglicht. Damit wird u.a. die Einbeziehung von Hilfskräften in Editionsprojekte erleichtert. Wiki-Modul

Wiki-Systeme

In ähnlicher Perspektive wird ein auf der Open Source Software JAMWiki beruhendes moderiertes Wiki-System, das bereits im UB-Projekt Libri Sancti Kiliani digital operationell ist, für weitere Medientypen und für die Verwendung in TextGrid angepasst und funktional erweitert. Mit dieser Web-2.0-Komponente wird ein weiteres sehr einfach benutzbares Werkzeug bereitgestellt, das den Stamm potentiell Beitragender zu einem Projekt ortsunabhängig vergrößert. TextGrid wird damit um ein System für Beiträge Dritter, die nicht unmittelbar auf den Originaldaten arbeiten sollen, erweitert.

Schnittstelle Repositories-Datenanalyse

Dieses Modul unterstützt anhand der Textanalyse-Use-Cases

die Zusammenstellung eines Korpus zu analysierender Texte aus dem TextGrid-Repository bzw. WÜsyphus u.a. anhand ihrer Metadaten,

die Aufbereitung der gewählten Texte mit ihren Metadaten für ihre Analyse mit UIMA,

die Ausführung der Analyse und schließlich

eine Einbindung der Analyseergebnisse in TextGrid, etwa durch die Rückübertragung von Annotationen durch UIMA nach TEI.

Diese Teilschritte können, ggf. in angepasster Form, auch allgemeiner von anderen Projekten nachgenutzt werden.

Aufbau prototypischer Arbeitsabläufe zur Datenanalyse

Ausgehend von den Use Cases werden prototypische Abläufe zur Datenanalyse für Textwissenschaftler etabliert und vor allem ausreichend und für das Zielpublikum verständlich dokumentiert. Ziel ist es, so den Einsatz solcher Verfahren zu befördern, indem man das „Nachbauen“ mit eigenen Daten möglichst vereinfacht. Diese Workflows, die etablierte Tools zu Arbeitsketten zusammenstellen sowie Eigenentwicklungen einbringen, sollen durch entsprechende interne und öffentliche Schulungen auch einer größeren Öffentlichkeit im Bereich der Digital Humanities bekannt gemacht werden. Im Bereich der statistischen Analyse quantitativer Ergebnisse sind dabei grundlegende methodologische Probleme zu lösen. Die so entstandenen Best-Practice-Implementierungen werden in die Workflows integriert, im Rahmen der Use Cases empirisch validiert und der Forschungsgemeinschaft zur Verfügung gestellt.

[bearbeiten]

Hier z.B. die Scanner!

TODO

[bearbeiten]

TODO