Kallimachos II (Eingehende Darstellung)
Ein Schwerpunkt des Verbundprojektes war die OCR-Optimierung und die Unterstützung der entsprechenden Use Cases Narragonien und Anagnosis. Hier wurden im Projektverlauf verschiedene Techniken implementiert und erprobt. Mit der Bereitstellung des semi-automatischen Open Source Tools OCR4all wurde ein Durchbruch erzielt, der erstmals die Digitalisierung früher Drucke mit vertretbarem Aufwand erlaubt. OCR4all wurde nicht nur in Kallimachos intensiv genutzt, sondern hat darüber hinaus auch international bereits eine größere Verbreitung gefunden (s. AP1). Auch die anderen Teilprojekte konnten erfolgreich abgeschlossen werden. Die folgende Darstellung der erzielten Ergebnisse über-nimmt die Gliederung des Antragsdokumentes, so dass für jedes Arbeitspaket ein Vergleich der Ziele und der Ergebnisse leicht nachvollziehbar ist.
1.1 AP1: OCR-Optimierung
TA 1.1.1: Automatische Segmentierung
Der OCR-Workflow lässt sich in vier Hauptschritte einteilen: Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur (s. unten Abb. 1).
Wir beschreiben die Segmentierung im Kontext des OCR-Workflow-Tools OCR4all (s. TA 1.1.2).
TA 1.1.2: Ausbau Offizinansatz und Weiterentwicklung in OCR4all
Der Offizinansatz, der die mühselige und zeitaufwändige Identifizierung einzelner werkstattspezifischer Drucktypen für die OCR-Erfassung vorsah, wurde fallen gelassen, da die OCR-Erkennung mit neuronalen Netzen in LSTM-Architektur keine Segmentierung von Einzelzeichen erfordert. Stattdessen werden Drucke mit Hilfe gemischter Modelle transkribiert, die auf einer Vielzahl von Drucktypen trainiert wurden. Anschließend werden einige Seiten nachkorrigiert und auf dieser Grundlage ein werkspezifisches Modell trainiert, mit dem anschließend der gesamte Druck transkribiertund abschließend korrigiert wird. Diese Vorgehensweise stellt eine sehr zeit- und kostensparende Variante gegenüber einer rein händischen Transkription dar und dürfte für alte Drucke die derzeit effizienteste Vorgehens-weise sein. Entsprechend hat das komfortable Workflow-Tool OCR4all [Reul et al.2019c] bereits eine sehr gute nationale und internationale Resonanz und auch Verbreitung gefunden. Im Folgenden werden die Teilschritte des Workflows und die Resonanz ausführlicher dargestellt.
Semi-automatisches Transkriptionstool OCR4all für alte Drucke
Um den vorgestellten Ansatz einer möglichst breiten Nutzergruppe zur Verfügung zu stellen, wurde das Tool OCR4all entwickelt und frei auf GitHub zur Verfügung gestellt. Die Motivation hinter OCR4all ist, dass es mittlerweile einige Open Source Tools gibt, die zwar (sogar auf sehr alten und anspruchsvollen Material) hervorragende Ergebnisse liefern, deren Anwendung allerdings unerfahrene, nicht-technische Nutzer schnell überfordern kann. Dies liegt insbesondere daran, dass viele Anwendungen ausschließlich über die Kommandozeile bedient werden können und teils schwierig zu installieren sind. Auch die Kombination verschiedener Einzeltools zu einer zusammenhängenden Pipeline ist häufig, aufgrund variierender Datenformate, nicht trivial. OCR4all versucht diese Lücke zu schließen, indem es einen vollständigen OCR-Workflow in einer einzigen Docker-Anwendung oder alternativ Virtual Box kapselt, die sehr simpel installiert werden kann.
Das Tool nimmt dem Nutzer die Verwaltung der Daten ab und kann komfortabel über eine übersichtliche grafische Weboberfläche gesteuert werden. Ziel ist es, auch nicht-technischen Nutzern eine Möglichkeit zu geben, selbst die ältesten gedruckten Werke eigenständig, mit überschaubaren Zeitaufwand und in höchster Qualität zu erfassen. Neben dem bekannten OCRopus und dem im Projekt entstandenen LAREX wurde auch das von Christoph Wick am Lehrstuhl für Künstliche Intelligenz entwickelte Open Source OCR Tool Calamari bereits vollständig in OCR4all und den dort enthaltenen Workflow integriert. Anders als OCRopus setzt Calamari bei der Zeichenerkennung auf eine tiefe Netzstruktur mit mehreren versteckten Schichten (Deep Learning), was deutlich höhere Erkennungsraten zur Folge hat ([Wick et al.2018]). Neben dieser technischen Weiterentwicklung wurden auch weitere methodische Verbesserungen wie Voting [Reul et al.2018a], Pretraining [Reul et al.2018b] und Datenaugmentierung integriert, deren Verwendung die Fehlerrate noch einmal deutlich reduziert [Reul et al.2018c, Wick et al.2020].
Workflow
Ein typischer OCR-Workflow lässt sich grundsätzlich in vier Hauptschritte unterteilen (s. Abbildung 1), deren Ziele, Herausforderungen und derzeitige Umsetzung in OCR4all im Folgenden vorgestellt werden.
[Abbildung 1: Hauptschritte eines typischen OCR Workflows. Von links nach rechts: Eingabebild, Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur]
Vorverarbeitung: In diesem ersten Schritt werden die Eingabebilder in Hinblick auf die weitere Verarbeitung aufbereitet. Dies schließt sowohl eine Binarisierung (Umwandlung in ein Schwarzweißbild) als auch ein Geradestellen der Scanseite ein. Auch eine vorherige Trennung von zusammen gescannten Doppelseiten oder das Aufrechtstellen quer erfasster Scanseiten ist üblich. Die Binarisierung und das Geradestellen wird von einem Skript aus der OCRopus Toolbox zuverlässig erledigt. Prinzipiell kann OCR4all auch mit Doppelseiten oder quer gescannten Seiten umgehen, jedoch wird eine Trennung und ein Aufrechtstellen empfohlen, z. B. durch das frei verfügbare und gut dokumentierte Tool ScanTailor (aufgrund fehlender Webgängigkeit nicht sinnvoll in OCR4all integrierbar).