Kallimachos II (Eingehende Darstellung)
1. Verwendung der Zuwendung und Aufzählung der wichtigsten wissenschaftlich-technischen und anderer Ergebnisse.
Ein Schwerpunkt des Verbundprojektes war die OCR-Optimierung und die Unterstützung der entsprechenden Use Cases Narragonien und Anagnosis. Hier wurden im Projektverlauf verschiedene Techniken implementiert und erprobt. Mit der Bereitstellung des semi-automatischen Open Source Tools OCR4all wurde ein Durchbruch erzielt, der erstmals die Digitalisierung früher Drucke mit vertretbarem Aufwand erlaubt. OCR4all wurde nicht nur in Kallimachos intensiv genutzt, sondern hat darüber hinaus auch international bereits eine größere Verbreitung gefunden (s. AP1). Auch die anderen Teilprojekte konnten erfolgreich abgeschlossen werden. Die folgende Darstellung der erzielten Ergebnisse über-nimmt die Gliederung des Antragsdokumentes, so dass für jedes Arbeitspaket ein Vergleich der Ziele und der Ergebnisse leicht nachvollziehbar ist.
1.1 AP1: OCR-Optimierung
TA 1.1.1: Automatische Segmentierung
Der OCR-Workflow lässt sich in vier Hauptschritte einteilen: Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur (s. unten Abb. 1).
Wir beschreiben die Segmentierung im Kontext des OCR-Workflow-Tools OCR4all (s. TA 1.1.2).
TA 1.1.2: Ausbau Offizinansatz und Weiterentwicklung in OCR4all
Der Offizinansatz, der die mühselige und zeitaufwändige Identifizierung einzelner werkstattspezifischer Drucktypen für die OCR-Erfassung vorsah, wurde fallen gelassen, da die OCR-Erkennung mit neuronalen Netzen in LSTM-Architektur keine Segmentierung von Einzelzeichen erfordert. Stattdessen werden Drucke mit Hilfe gemischter Modelle transkribiert, die auf einer Vielzahl von Drucktypen trainiert wurden. Anschließend werden einige Seiten nachkorrigiert und auf dieser Grundlage ein werkspezifisches Modell trainiert, mit dem anschließend der gesamte Druck transkribiertund abschließend korrigiert wird. Diese Vorgehensweise stellt eine sehr zeit- und kostensparende Variante gegenüber einer rein händischen Transkription dar und dürfte für alte Drucke die derzeit effizienteste Vorgehens-weise sein. Entsprechend hat das komfortable Workflow-Tool OCR4all [Reul et al.2019c] bereits eine sehr gute nationale und internationale Resonanz und auch Verbreitung gefunden. Im Folgenden werden die Teilschritte des Workflows und die Resonanz ausführlicher dargestellt.
Semi-automatisches Transkriptionstool OCR4all für alte Drucke
Um den vorgestellten Ansatz einer möglichst breiten Nutzergruppe zur Verfügung zu stellen, wurde das Tool OCR4all entwickelt und frei auf GitHub zur Verfügung gestellt. Die Motivation hinter OCR4all ist, dass es mittlerweile einige Open Source Tools gibt, die zwar (sogar auf sehr alten und anspruchsvollen Material) hervorragende Ergebnisse liefern, deren Anwendung allerdings unerfahrene, nicht-technische Nutzer schnell überfordern kann. Dies liegt insbesondere daran, dass viele Anwendungen ausschließlich über die Kommandozeile bedient werden können und teils schwierig zu installieren sind. Auch die Kombination verschiedener Einzeltools zu einer zusammenhängenden Pipeline ist häufig, aufgrund variierender Datenformate, nicht trivial. OCR4all versucht diese Lücke zu schließen, indem es einen vollständigen OCR-Workflow in einer einzigen Docker-Anwendung oder alternativ Virtual Box kapselt, die sehr simpel installiert werden kann.
Das Tool nimmt dem Nutzer die Verwaltung der Daten ab und kann komfortabel über eine übersichtliche grafische Weboberfläche gesteuert werden. Ziel ist es, auch nicht-technischen Nutzern eine Möglichkeit zu geben, selbst die ältesten gedruckten Werke eigenständig, mit überschaubaren Zeitaufwand und in höchster Qualität zu erfassen. Neben dem bekannten OCRopus und dem im Projekt entstandenen LAREX wurde auch das von Christoph Wick am Lehrstuhl für Künstliche Intelligenz entwickelte Open Source OCR Tool Calamari bereits vollständig in OCR4all und den dort enthaltenen Workflow integriert. Anders als OCRopus setzt Calamari bei der Zeichenerkennung auf eine tiefe Netzstruktur mit mehreren versteckten Schichten (Deep Learning), was deutlich höhere Erkennungsraten zur Folge hat ([Wick et al.2018]). Neben dieser technischen Weiterentwicklung wurden auch weitere methodische Verbesserungen wie Voting [Reul et al.2018a], Pretraining [Reul et al.2018b] und Datenaugmentierung integriert, deren Verwendung die Fehlerrate noch einmal deutlich reduziert [Reul et al.2018c, Wick et al.2020].
Workflow
Ein typischer OCR-Workflow lässt sich grundsätzlich in vier Hauptschritte unterteilen (s. Abbildung 1), deren Ziele, Herausforderungen und derzeitige Umsetzung in OCR4all im Folgenden vorgestellt werden.
Abbildung 1: Hauptschritte eines typischen OCR Workflows. Von links nach rechts: Eingabebild, Vorverarbeitung, Segmentierung, Texterkennung, Nachkorrektur
Vorverarbeitung: In diesem ersten Schritt werden die Eingabebilder in Hinblick auf die weitere Verarbeitung aufbereitet. Dies schließt sowohl eine Binarisierung (Umwandlung in ein Schwarzweißbild) als auch ein Geradestellen der Scanseite ein. Auch eine vorherige Trennung von zusammen gescannten Doppelseiten oder das Aufrechtstellen quer erfasster Scanseiten ist üblich. Die Binarisierung und das Geradestellen wird von einem Skript aus der OCRopus Toolbox zuverlässig erledigt. Prinzipiell kann OCR4all auch mit Doppelseiten oder quer gescannten Seiten umgehen, jedoch wird eine Trennung und ein Aufrechtstellen empfohlen, z. B. durch das frei verfügbare und gut dokumentierte Tool ScanTailor (aufgrund fehlender Webgängigkeit nicht sinnvoll in OCR4all integrierbar).
Segmentierung: Aufgabe dieses Schritts ist die Unterteilung der Scanseite in kleinere Einheiten. Dabei sind, abhängig vom Material und den individuellen Anforderungen des Nutzers, sehr unterschiedliche Ausprägungen möglich. So kann es z. B. ausreichen, lediglich die Regionen, die Text enthalten, zu iden-tifizieren und vom Rest (Bilder, Noise etc.) zu trennen. Am anderen Ende des Spektrums steht eine feingliedrige semantische Auszeichnung (s. Abbildung 2), die nicht nur Text-und Bildregionen unter-scheidet, sondern v. a. ersteren noch weitereSubtypen zuweist (Fließtext, Überschrift, Marginalie, etc.; wiederum stark nutzer-und materialabhängig). Identifizierte Textregionen müssen anschließend in einzelne Textzeilen aufgespalten werden, da diese die benötigte Eingabe für moderne OCR-Engines darstellen.
Abbildung 2: Segmentierung einer komplexen Seite des Narrenschiffs inklusive präziser semantischer Auszeichnung und exakter Erfassung der Lesereihenfolge
Für diesen überaus anspruchsvollen Schritt stellt OCR4all derzeit zwei Submodule zur Verfügung, um sich optimal an die Ansprüche der jeweiligen Nutzer sowie den Eigenschaften und Herausforderungen des vorliegenden Materials anzupassen. Zum einen kommt das eigens entwickelte LAREX-Tool (s. u.) zum Einsatz, dessen semi-automatischer Ansatz sich speziell für Nutzer eignet, die an einem zu 100% korrekten Ergebnis interessiert sind, inklusive einer individuellen und detaillierten semantischen Auszeichnung. Zum anderen wird für die vollautomatische Anwendung eine sogenannte Dummysegmentierung angeboten, die weder eine semantische Auszeichnung noch ein explizites Markup von Bildern oder anderen Nicht-Text-Regionen vornimmt, sondern sich direkt auf die Detektion von Textzeilen konzentriert. Für diesen Zeilensegmentierungsschritt kommt wiederum ein leicht modifiziertes OCRopus-Skript zum Einsatz, das, anders als die Originalversion, keine tatsächlichen Zeilenbilder abspeichert, sondern eng an den Text anliegende Polygone generiert, die dann in der entsprechenden PageXML Datei abgelegt werden können.
Texterkennung: Aus den Textzeilen kann nun der darin abgebildete Text extrahiert werden. Dazu nutzen OCR-Engines sogenannte Modelle. Generell wird zwischen gemischten und werk-oder typenspezifischen Modellen unterschieden. Erstere werden im Normalfall auf einer Vielzahl ähnlicher Typen trainiert und können dann out-of-the-box (ohne weiteres werkspezifisches Training und somit ohne weiteres Erstellen von Trainingsdaten) auf ungesehenes Material angewendet werden. Dieses Vorgehen ist umso vielversprechender, je einheitlicher die Typographie des vorliegenden Materials ist. Während man bei moderner Schrift, aber z. B. auch bei Frakturschriften des 19. Jahrhunderts, auf sehr niedrige Fehlerraten hoffen kann (vgl. Evaluation in Tabelle 1), können diese bei zunehmendem Alter des Materials und insbesondere bei Inkunabeln keineswegs erwartet werden. Abhilfe kann durch werksspezifische Modelle geschaffen werden, zu deren Erstellung werksspezifische Ground Truth benötigt wird, die durch manuelle Korrektur der mit gemischten Modellen transkribierten Texte erzeugt werden muss. Selbstverständlich bedeutet dies zusätzlichen Aufwand, der aber aufgrund der besseren Erkennungsgenauigkeit in vielen Anwendungsfällen für eine ausreichende Qualität notwendig ist.
Die derzeit in OCR4all zum Einsatz kommende OCR-Engine ist das eigens entwickelte Calamari, das sowohl für die Erkennung als auch für das Training eigener Modelle zum Einsatz kommt. Hinsichtlich der Bedienung durch nicht-technische Nutzer stellte speziell der Trainingsschritt in seiner Implementierung eine große Herausforderung dar, da sämtliche oben erwähnten methodischen Erweiterungen unterstützt werden sollten, jedoch ohne die Nutzer zu überfordern.
Nachkorrektur: Da trotz großer Fortschritte in den letzten Jahren ein fehlerfreies OCR-Ergebnis auf historischen Drucken nicht realistisch ist, wird ein finaler Schritt benötigt, in dem die verbleibenden Fehler korrigiert bzw. zumindest weiter reduziert werden sollen. Dies kann automatisch, z. B. durch die Verwendung von Sprachmodellen erfolgen, manuell durch eine händische Nachkorrektur oder auch durch eine Kombination beider Methoden. Während eine automatische Nachkorrektur derzeit noch nicht in OCR4all zur Verfügung steht (jedoch extern angebunden werden kann, z. B. PoCoTo [Vobl et al.2014] bzw. PoCoWeb), bietet die integrierte Komponente LAREX aufgrund umfassender Erweiterung mittlerweile die Möglichkeit, komfortabel sowohl den OCR-Text als auch die Ergebnisse vorangegangener Schritte wie Regionen- und Zeilenpolygone, Reading Order, semantische Typen usw. zu korrigieren (s. Abbildung 3).
Abbildung 3: Textuelle Korrektur in LAREX: Seiten-basierte Ansicht (links), konfigurierbares virtuelles Keyboard (Mitte), Zeilen-basierte Ansicht (rechts).
Aufgrund des modularen Aufbaus des Tools sowie der wohldefinierten Schnittstellen und dem gewählten Distributionsweg über eine Containerlösung ist die Einbindung weiterer Lösungen jederzeit möglich.
Evaluation: Neben dem praktischen Einsatz von OCR4all an zahlreichen Institutionen und in vielfälti-gen Projekten (s.u.) wurden im Rahmen der zugehörigen Hauptveröffentlichung [Reul et al. 2019c] umfassende Evaluationen in enger Kooperation mit den designierten geisteswissenschaftlichen Nutzern durchgeführt.
Die erste Evaluation bezieht sich auf Frakturromane des 19. Jahrhunderts (mit einer Ausnahme aus dem späten 18. Jahrhundert). Im Gegensatz zu Inkunabeln und Drucken der frühen Neuzeit, wie z. B. dem Narrenschiff, verfügen diese, neben dem besseren Erhaltungszustand, über ein moderates Layout und deutlich einheitlichere Drucktypen, was eine vollautomatische Erschließung mittels OCR4all ermöglichte. Die einheitliche Typographie erlaubte die Anwendung eines gemischten Calamari-Modells für Frakturschriften des 19. Jahrhunderts, das zuvor unter Verwendung der oben genannten genauigkeitssteigernden Maßnahmen trainiert worden war [Reul et al. 2019a]. Evaluiert wurde der vollautomatische OCR4all-Durchlauf jeweils auf zehn Seiten aus zehn verschiedenen Werken, mit teils stark schwankender Qualität, wie in Abbildung 4 zu sehen ist.
Abbildung 4: Beispielbilder deutscher Frakturromane. Von links nach rechts: F1870, F1781, F1818 (Seite in akzeptablen Zustand), F1818 (Seite in schlechten Zustand), F1803.
Zum Vergleich wurde dieselbe Evaluation mit dem kommerziellen State-of-the-Art Tool ABBYY Finereader durchgeführt, , das neben einer „Gothic“ Erkennung für Frakturschrift auch eine entsprechende Nachkorrektur für „Old German“ anbietet. Tabelle 1 fasst die Ergebnisse zusammen.
Tabelle 1: Vergleich der Buchstabenfehlerraten bei vollautomatischer Anwendung von ABBYY Finereader und OCR4all, sowie die durch OCR4all erreichte Fehlerreduktion (ErrRed.) und den Verbesserungsfaktor (Impr.).
| Werk | ABBYY | OCR4all | ErrRed. | Impr. |
|---|---|---|---|---|
| F1781 | 2,9 | 0,60 | 79,3 | 4,8 |
| F1803 | 27 | 4,89 | 81,9 | 5,5 |
| F1810 | 3,8 | 0,61 | 84,0 | 6,2 |
| F1818 | 10 | 1,35 | 86,6 | 7,5 |
| F1826 | 1,1 | 0,06 | 94,4 | 18 |
| F1848 | 0,93 | 0,20 | 78,5 | 4,7 |
| F1851 | 1,0 | 0,16 | 84,0 | 6,3 |
| F1855 | 4,0 | 0,33 | 91,8 | 12 |
| F1865 | 1,6 | 0,18 | 88,8 | 8,9 |
| F1870 | 0,48 | 0,13 | 72,9 | 3,7 |
| Average | 5,3 | 0,85 | 84,2 | 7,8 |
Die Werte zeigen, dass OCR4all für jedes einzelne Werk deutlich bessere Fehlerraten liefert als ABBYY Finereader, was in einer durchschnittlichen Fehlerreduktion von 84% und einem Verbesserungsfaktor von fast 8 resultiert. Für beide Systeme variieren die Ergebnisse sehr stark von Buch zu Buch, was durch die stark unterschiedliche Qualität des Ausgangsmaterials zu erklären ist (vgl. Abbildung 4). Im Schnitt erreicht OCR4all eine sehr niedrige Buchstabenfehlerrate (CER) von lediglich 0,85% (ABBYY 5,3%), wobei diese für acht der zehn Werke bei unter 1% und bei sechs sogar unter 0,5% liegt. Werden nur die besten 50% der Werke betrachtet, sinkt die CER sogar auf hervorragende 0,15%.
Diese Experimente auf Frakturromanen des 19. Jh. zeigen, dass eine vollautomatische Anwendung von OCR4all nicht nur möglich ist, sondern auch überaus präzise sein kann, solange ein moderates Layout vorliegt und ein passendes OCR-Modell vorhanden ist. Es sei angemerkt, dass die gezeigten extrem niedrigen Fehlerraten nur dann vollautomatisch erreicht werden können, wenn ein hoch performantes gemischtes Modell vorliegt. In diesem Fall war ein Modellensemble verfügbar, das perfekt für die Erkennung des vorliegenden Evaluationsmaterials geeignet war. Leider stellt dies derzeit noch eine Ausnahme dar, da ähnlich spezialisierte Modelle wohl lediglich für die Erkennung von modernen englischen Texten vorliegen.
Da OCR4all ursprünglich für die vergleichsweise hohen Anforderungen des Projekts Narragonien-digital entwickelt wurde (exakte semantische Auszeichnung bereits auf Layoutebene, fehlerfreier Ergebnistext), können auch Werke, die aus Sicht des Layouts und der Typographie teils deutlich anspruchsvoller sind als die zuvor evaluierten Frakturromane, problemlos bearbeitet werden. Diese wurde in einer zweiten, sehr umfangreichen, nutzerzentrierten Studie evaluiert:
Bearbeitet wurden 25 Werke, gedruckt zwischen 1474 und 1598, darunter zahlreiche Narrenschiffe sowie Erzeugnisse des Universalgelehrten Joachim Camerarius des Älteren (in Kooperation mit dem DFG-Projekt ‘Opera Camerarii’, vgl. [Hamm et al. 2019].) Die Bearbeitung erfolgte größtenteils durch Studierende, die in zwei Gruppen unterteilt wurden: Gruppe 1 bestand aus unerfahrenen Nutzern, die über keinerlei nennenswerte Vorerfahrung mit OCR4all oder OCR im Allgemeinen verfügten. Im Gegensatz dazu konnten die Bearbeiter aus Gruppe 2 bereits umfangreiche Erfahrungen vorweisen. Nach einer Einführung durch einen der erfahrenen Nutzer mussten die unerfahrenen Nutzer die ihnen zugewiesenen Werke selbstständig bearbeiten.
Bei allen Werken wurden bereits auf Layout-Ebene Regionen semantisch präzise erfasst und ausgezeichnet, um später eine vollständige Rekonstruktion der Scanseite zu ermöglichen (vgl. Abbildung 2 und Abbildung 5). Obwohl sämtliche Werke final als zitierfähiger Volltext vorliegen sollten, wurde für diese Evaluation vorerst lediglich eine grobe Ziel-Zeichenfehlerrate von 1% ausgegeben. Neben dem für die Segmentierung benötigten Zeitaufwand wurden die Fehlerrate sowie der Korrekturaufwand erfasst. Tabelle 2 zeigt die Ergebnisse.
Tabelle 2: Zusammenfassung der erreichten Ergebnisse (Mittelwerte plus ggf. Standardabweichung) bei Anwendung von OCR4all auf frühe Drucke durch Nutzer unterschiedlicher Erfahrungsstufen.
| Unerfahrene Nutzer | Erfahrene Nutzer | |
|---|---|---|
| Erreichte CER | 0,47% ± 0,22% | 0,49% ± 0,30% |
| Transkribiertes Trainingsmaterial | 988 Zeilen | 927 Zeilen |
| Korrekturzeit pro Zeile | 10s ± 5,2s | 5,5s ± 2,4s |
| Segmentierungszeit pro Seite | 1,2min ± 0,5min | 0,6min ± 0,2min |
Wie erwartet, hatte die Erfahrung der Nutzer weder Einfluss auf die Genauigkeit der OCR noch auf die zur Erreichung der vorher festgelegten CER von max. 1% benötigte Anzahl an Trainingszeilen. Beide Nutzergruppen konnten eine, gerade in Hinblick auf das Alter des Materials, hervorragende und nahezu identische durchschnittliche CER von unter 0,5% erreichen und benötigten dazu im Schnitt knapp 1.000 Trainingszeilen. Dies unterstreicht die Effektivität des vorgestellten Ansatzes und die Leistungsfähigkeit der integrierten und für Training und Erkennung eingesetzten OCR-Software Calamari. Ebenfalls nicht überraschend ist, dass die erfahrenen Nutzer, in Hinblick auf den benötigten Zeitaufwand, sowohl bei der Segmentierung als auch bei der Erstellung der Trainingsdaten, deutlicher effizienter arbeiten. Aus den erhobenen Werten kann eine grobe Faustregel bzgl. des benötigten Zeitaufwands für die präzise Erfassung (exakte semantische Auszeichnung und eine CER von weniger als 0,5% im Durchschnitt von 25 Werken mit durchschnittlich über 250 Seiten pro Werk) abgeleitet werden: Unerfahrene Nutzer müssen mit 150 Minuten für die GT Erstellung sowie 1,1 Minuten pro Seite für die Segmentierung rechnen. Erfahrene Nutzer können von einer deutlich schnelleren Erfassung ausgehen: 57 Minuten Aufwand für die GT Erstellung und 0,6 Minuten für die Segmentierung jeder Seite.
Verbreitung in und Nutzung durch die Community:
OCR4all wurde sowohl innerhalb der Universität Würzburg als auch auf nationaler und internationaler Ebene hervorragend angenommen. Das ZPD nimmt große Anstrengungen vor, um die Verbreitung und die Nutzbarkeit weiter voranzutreiben, wie im Folgenden erläutert werden soll.
Abbildung 5: Beispielseiten der frühen Drucke, die zur Evaluation verwendet wurden, sowie teilweise die erwartete Segmentierung (rechts).
Eigene Veröffentlichungen der Projektgruppe: In der recht technisch gehaltenen Hauptveröffentlichung [Reul et al. 2019c] lag der Schwerpunkt auf der Beschreibung des Tools, der zum Einsatz kommenden Komponenten und des konzipierten Workflows. Des Weiteren wurde OCR4all ausgiebig evaluiert (obige Evaluation zeigt einen Auszug).
Eine weitere Publikation [Wehner et al. 2020] nebst zugehörigen Workshop wurde auf der dies-jährigen Jahrestagung der Digital Humanities im deutschsprachigen Raum (DHd) veröffentlicht. Der für 25 Teilnehmer ausgeschriebene, ganztägige Workshop stieß auf großes Interesse und war innerhalb kürzester Zeit ausgebucht.
Auf Anfrage des Magazins KulturBetrieb, welches zweimal im Jahr an mehr als 2.200 kulturbewahrende Einrichtungen wie Museen, Archive oder auch Bibliotheken ausgeliefert wird, wurde ein weiterer Artikel [Wehner, 2019] verfasst, der neben einer eingehenden Beschreibung des OCR-Workflows besonderen Fokus auf die Entwicklung der Software in Zusammenarbeit mit den Geisteswissenschaften legt und somit Nutzungsvorteile und Chancen der Software für die angesprochenen, kultur- und kunstbewahrenden Institutionen aufzeigt.
Berichterstattung (Auswahl): Im April 2019 veröffentlichte das Onlinemagazin der Universität Würzburg einBLICK einen Artikel zu OCR4all in deutscher und englischer Sprache und verbreitete diesen über diverse nationale und internationale Kommunikationskanäle. Der Artikel stieß auf großes Interesse, welches, neben der Berichterstattung in zahlreichen Onlineportalen und Tageszeitungen (u. a. Der Tagesspiegel, die Augsburger Allgemeine und Der Standard), auch ein Radiointerview mit SWR2 Impuls nach sich zog. Des Weiteren ergab sich die Möglichkeit, OCR4all in Rahmen einer Toolvorstellung des DFG-geförderten Projekts forText einer noch größeren Gruppe an geisteswissenschaftlichen Nutzern näherzubringen.
Gehaltene Vorträge (Auswahl):
- Inputworkshop des DFG-geförderten Fachinformationsdienst Philosophie der Universitäts- und Stadtbibliothek Köln
- Jahrestagung des Arbeitskreises Provenienzforschung e.V. in Düsseldorf
- Gastvortrag am Trier Center for Digital Humanities
- Kolloquium Korpuslinguistik und Phonetik an der HU Berlin
- Bereits vereinbart: Tagung Digitale Mediävistik, Januar 2021 in Bremen
Anleitungen, Workshops, Praktika und sonstige Lehraktivitäten (Auswahl):
Um den Nutzern speziell den Einstieg und das weitere Arbeiten mit OCR4all zu erleichtern, wurden umfangreiche und anschauliche Anleitungen für Installation und Nutzung in deutscher und englischer Sprache erstellt und veröffentlicht.
Des Weiteren wird anhand zweier mitgelieferter Beispielwerke die Anwendung von OCR4all Schritt für Schritt erläutert. Die Anleitungen werden fortlaufend gepflegt und regelmäßig aktualisiert. Ein Semantic MediaWiki, das neben den Anleitungen auch zahlreiche Begriffsdefinitionen, technische Hintergründe und häufige Probleme sowie deren Lösungen zur Verfügung stellen und miteinander verknüpfen soll, befindet sich im Aufbau. Weitere Schulungsaktivitäten werden im Folgenden gelistet. An der Universität Würzburg wurden folgende Workshop gehalten:
- Regelmäßige Workshops für Professoren, Mitarbeiter und Studierende aller Fakultäten.
- Regelmäßige Praktika für Studierende des Masterstudiengangs „Mittelalter und Frühe Neuzeit“.
- Teilmodul des Zusatzzertifikats Digitale Kompetenz, das Studierenden der Modernen Philologien die Möglichkeit bietet, über ihr Studium hinaus Kompetenzen im Umgang mit digitalen Daten zu erwerben und nachzuweisen.
National und international wurden folgende Workshops angeboten:
- Workshop auf der Jahrestagung der Digital Humanities im deutschsprachigen Raum 2020 in Paderborn. Das Feedback der über 20 Teilnehmer fiel überaus positiv aus.
- Train-the-Trainer Workshop im Sommer 2019, bei dem Interessierte, die selbst OCR4all Workshops anbieten wollen oder bereits anbieten, gesondert geschult wurden. Außerdem hatten sie so die Möglichkeit, sich mit den Entwicklern über das Feedback aus der Community auszutauschen und das weitere Vorgehen zu diskutieren. Aufgrund des hervorragenden Feedbacks sind weitere Veranstaltungen dieser Art geplant. Der o. g. DHd Workshop wurde von der Würzburger Arbeitsgruppe in Kooperation mit einigen Teilnehmern des Train-the-Trainer Workshops ausgerichtet.
- Zwei Workshops (Würzburg 2018 und Budapest 2019) im Rahmen der COST Action Distant Reading for European Literary History .
- Seminar Historische Korpuslinguistik an der Humboldt-Universität zu Berlin: In Kooperation mit dem ZPD wurden von Masterstudierenden diverse Werke des 17. und 18. Jahrhunderts zum Thema Kräuter transkribiert. Die benötigten Berechnungen liefen dabei auf den Würz-burger Servern, wärend die Studierenden nach einer kurzen Einweisung die notwendigen Korrekturen remote und bequem über eine Weboberfläche leisten konnten.
- Workshop im Rahmen des Lehrprojekts „Digital Visual Studies" am kunsthistorischen Institut der Universität Zürich im Programm „Stärkung der digitalen Kompetenzen im Bildungsbereich“
- Workshop beim Schweizerischen Idiotikon in Zürich.
- Workshop am Trier Center for Digital Humanities.
Von Teilnehmern des o. g. Train-the-Trainer Workshops wurden/werden (abgesehen von dem bereits erwähnten DHd Workshop und den zahlreichen Veranstaltungen an der Universität Würzburg) bereits folgende Lehrveranstaltungen angeboten:
- Verschiedene Lehrveranstaltungen am Institut für Informations- und Sprachverarbeitung, LMU München.
- Zahlreiche Workshops am Leopoldina-Zentrum für Wissenschaftsforschung.
- Übung am Historischen Seminar der LMU München.
- Im Sommer 2020 bieten zwei der Teilnehmer im Rahmen der European Summer University in Digital Humanities der Universität Leipzig zwei mehrtägige OCR4all Workshops an.
Bekannte Nutzer und Anwendungsszenarien: Über den Hauptdistributionsweg DockerHub wurde OCR4all bislang über 1.600 Mal heruntergeladen (Stand März 2020). Da ein Nutzer mehrere Downloads tätigen, eine Instanz von beliebig vielen Nutzer verwendet werden und zudem das Tool auch vollumfänglich über den auf GitHub zur Verfügung gestellten Code problemlos selbst installiert werden kann, ist eine genauere Abschätzung der Nutzerzahl nicht möglich. Stattdessen soll im Folgenden ein Überblick über bekannte Nutzer und Anwendungsszenarien gegeben werden. Dabei werden nur gesicherte Einsätze (per Publikation oder direkten Kontakt) gelistet und die zahlreichen weiteren Aktivitäten, die sich z. B. über GitHub oder diverse Social Media Plattformen andeuten, ignoriert.
Neben den Anwendungen in den Kallimachos-Teilprojekten Narragonien digital und Anagnosis kommt OCR4all überdies an folgenden Lehrstühlen und Projekten an der Universität Würzburg zum Einsatz:
- “Camerarius digital” (Nachfolgeprojekt des DFG-Projekts Opera Camerarii, vgl. [Hamm et al. 2019].): Erfassung von 303 lateinischen und griechischen Drucken des deutschen Humanisten Joachim Camerarius (vgl. Abschnitt Evaluation; ein DFG-Sachbeihilfeantrag wurde gestellt). Antragsteller sind der Lehrstuhl für Klassische Philologie (Latinistik), der Lehrstuhl für künstliche Intelligenz und Wissenssysteme, der Lehrstuhl für Geschichte der Medizin und die Professur für deutsche Philologie.
- Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte:
- Massenerfassung von Frakturromanen des 19. Jh. (bereits über 800 Romane verarbeitet).
- Erkennung von Lyrikanthologien mit Gedichten des Realismus/Naturalismus (SPP Computational Literary Studies , Teilprojekt „Moderne Lyrik“).
- Aufbau eines Korpus von Heftromanen (Vorarbeit für Projektantrag).
- Aufbau eines Korpus von Novellen und Erzählungen (Habilitationsprojekt von Julian Schröter).
- Lehrstuhl für Deutsche Sprachwissenschaft:
- Erfassung diverser Quellen (Schwerpunkt 19. Jh.) zur Anreicherung der Würzburger Datenbank sprachlicher Zweifelsfälle ([ www.zweidat.germanistik.uni-wuerzburg.de ZweiDat]) (Projektantrag in Vorbereitung).
- Transkription von deutschsprachigen Frakturdrucken des 16. Jh. im Projekt Greifswald Digital.
- Erfassung von Reiseführern für diskurslinguistische Studien (Dissertationsprojekt von Miriam Reischle).
- Erkennung deutschsprachiger Drucktexte (größtenteils 17. Jh.), die alchemistische und astrologische Symbole enthalten (Dissertationsprojekt von Jonathan Gaede).
- Lehrstuhl für Französische und Italienische Literaturwissenschaft: Erfassung von französi-schen Handschriften der Frühen Neuzeit (Machbarkeitsstudie für Projektantrag).
- Lehrstuhl für Neuere Deutsche Literaturgeschichte I: Transkription ausgewählter Libretti der Hamburger Oper aus dem Zeitraum 1670-1728 (Vorbereitung für Projektantrag).
- Jean Paul Portal: OCR von Originaldrucken von Jean Paul im Rahmen des Teilprojekts „Flegeljahre“ (läuft am 01.04.2020 an).
- Lehrstuhl für vergleichende Sprachwissenschaft: OCR armenischer Texte des 19. Jahrhun-derts.
- Lehrstuhl für englische Sprachwissenschaft: Erfassung von englischen Zeitungstexten und Briefen des 19. und 20. Jahrhunderts.
Nationale und internationale Projekte und Anwendungen von OCR4all umfassen:
- Projekt MiMoText am Kompetenzzentrum der Universität Trier: Erfassung französischer Romane des 18. Jh.
- Monumenta Germaniae Historica: Lexika aus der Inkunabelzeit (Kooperation mit ZPD zur Vorbereitung eines LIS-Projektantrags).
- Max-Planck-Institut für Europäische Rechtsgeschichte: Erfassung rechtshistorischer Quellen (überwiegend frühneuzeitliche Drucke in verschiedensten Sprachen).
- Deutsches Historisches Museum Berlin: OCR von Archivalien des 19. und 20. Jh.
- Department of English, University of Bristol: The Literary Heritage of Anglo-Dutch Relations, 1050-1600.
- Universidad Nacional de Educación a Distancia (Madrid): [www.incunabula.uned.es Projekt] zur Erfassung lateinischer Texte des 15. und 16. Jh.
- Ältere Deutsche Philologie / Mediävistik, Universität Heidelberg: OCR verschiedener Texte Sebastians Brants um 1500.
- Kommission für bayerische Landesgeschichte an der Bayerischen Akademie der Wissenschaften: Erfassung verschiedenster Drucke und Schreibmaschinenerzeugnisse (u. a. Geschichtsbücher, Jahrbücher, Ortsnamenbücher, ...).
- Projekt WiTTFind am CIS der LMU München: Verarbeitung unterschiedlichen Materials, u. a. verstärkt Schreibmaschinenseiten.
- Martin-Luther-Universität Halle-Wittenberg: Digitalisierung von frühneuzeitlichen Lexika.
- Projekt Heinrich Wölflin – Gesammelte Werke des Kunsthistorischen Institut der Universität Zürich und des Max-Planck-Instituts für Kunstgeschichte, Bibliotheca Hertziana: Erfassung unpublizierter Handschriften (Proof of Concept in Kooperation mit dem ZPD).
- Projekt „Epigrāphia Carnāṭica digital“ der Universität zu Köln und der LMU München (OCR der dravidischen Sprache Kannada; DFG-Antrag gestellt, Kooperation mit ZPD intendiert).
- Humboldt-Universität zu Berlin, Institut für Archäologie: Erfassung koptischer Texte des 19. und 20. Jh.
- Städtisches Museum Bingen: OCR unterschiedlicher historischer Schriftstücke.