Narragonien:Main: Unterschied zwischen den Versionen
Aus Kallimachos
Hamm (Diskussion | Beiträge) |
Hamm (Diskussion | Beiträge) |
||
| Zeile 120: | Zeile 120: | ||
Der erste Schritt zu einer digitalen Edition besteht in der Bereitstellung zuverlässiger Transkriptionen. Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erschlossen – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Diese computergestützten Transkriptionen werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet. | Der erste Schritt zu einer digitalen Edition besteht in der Bereitstellung zuverlässiger Transkriptionen. Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erschlossen – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Diese computergestützten Transkriptionen werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet. | ||
Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt | Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt wurden. Nach einer Vorverarbeitung der Scans erfolgt die Segmentierung mittels des semi-automatischen Open Source Tools LAREX [1]. Neben einer Bild/Text-Trennung wird hierbei bereits auf Layoutebene eine detaillierte semantische Auszeichnung vorgenommen, bei der die Textabschnitte in Unterkategorien wie Haupttext, Überschrift oder Marginalie unterteilt werden. Nach dem Extrahieren der markierten Segmente erfolgt die eigentliche OCR unter Verwendung des Open Source Tools OCRopus. Die einzelnen Schritte sind die Segmentierung in Zeilen, die Erstellung von Ground Truth, das Training eines Modells und die Zeichenerkennung. Durch die Erweiterung des Standard-OCRopus-Ansatzes um Techniken wie Voting [2] und Pretraining [3] konnte die erreichte Zeichengenauigkeit noch einmal signifikant gesteigert werden, in den meisten Fällen auf deutlich über 98%. | ||
[1] Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). | [1] Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). | ||