Narragonien:Main: Unterschied zwischen den Versionen

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Version vom 1. Februar 2018, 16:03 Uhr

Das Projekt "Narragonien digital"

Der UseCase „Narragonien digital'“ erprobt die in „Kallimachos“ entwickelten editorischen Instrumente und Verfahren anhand von Sebastian Brants ‚Narrenschiff‘ (1494) und seinen europäischen Bearbeitungen im 15. Jahrhundert. Zu insgesamt 15 ‚Narrenschiff‘-Ausgaben in deutscher, niederdeutscher, niederländischer, lateinischer, französischer und englischer Sprache werden elektronische Transkriptionen erstellt und Lesefassungen erarbeitet. Ein synoptischer Online-Viewer wird die Faksimiles, Transkriptionen und Lesefassungen dieser ‚Narrenschiffe‘ präsentieren und durch ein gemeinsames Register und eine Suchfunktion verknüpfen. Ziel dieser integrierten digitalen Edition ist es, die historischen Text-, Bild- und Layouttransformationen zu dokumentieren und damit die überlieferungsgeschichtliche Dynamik des ‚Narrenschiffs‘ im 15. Jahrhundert editorisch abzubilden.

Das 'Narrenschiff'

Das ‚Narrenschiff‘ ist eine bebilderte Moralsatire in deutschen Knittelversen, die am 11. Februar 1494 in Basel erstmals im Druck erschien. Es handelt sich um ein Gemeinschaftsprojekt des elsässischen Humanisten Sebastian Brant und seines Basler Verlegers Johann Bergmann von Olpe, an dessen aufwendiger Bildausstattung (114 großformatige Holzschnitte) wohl auch der junge Albrecht Dürer beteiligt war. Ziel dieses Narrenbuchs ist eine Didaxe ex negativo: In unterhaltsamer Form sollen die kleinen Schwächen, lässlichen Missetaten und tadelnswerten Sünden der Zeitgenossen vor Augen geführt werden, um Orientierung in Fragen der Lebensführung zu geben. Hierzu präsentiert das ‚Narrenschiff‘ eine Revue von 109 Narren, die jeweils für eine bestimmte Verfehlung stehen und in einzelnen Kapiteln in Text und Bild vor Augen gestellt werden. Der Narr ist dabei kein Außenseiter, sondern ein Jedermann, er steht nicht am Rande der Gesellschaft, sondern in ihrer Mitte. Das ‚Narrenschiff‘ ist insofern eine satirische Enzyklopädie menschlicher Verfehlungen, die das Ziel hat, den Leser zur Selbsterkenntnis und zur moralischen Umkehr zu führen. Leitmetapher ist dabei die Schifffahrt, die für den Lebensweg der Narren steht, der sich auf der Reise ins imaginäre Narrenland Narragonia befindet.

Das 'Narrenschiff' als Bildbuch

Das ‚Narrenschiff‘ ist ein prominentes Beispiel für Intermedialität um 1500. Sebastian Brant und sein Basler Verleger Bergmann von Olpe wussten die gestalterischen Möglichkeiten des Buchdrucks zu nutzen: Die 109 Narrenkapitel, die zwei bzw. vier Seiten einnehmen, folgen einem Grundlayout, das jeweils Mottoverse, Holzschnitt, Überschrift, Spruchgedicht und ggf. Bordüren einander zuordnet. Im aufgeschlagenen Buch kann der Leser in Bild und Text erkennen, welcher Narr er ist. Das ‚Narrenschiff‘ präsentiert sich insofern als ein „Bildbuch“ (J. Knape), das – als Vorläufer der Emblematik – seine Aussage durch die Kombination verschiedener Medien vermittelt. Diese konstitutive Intermedialität empfiehlt das Werk für eine digitale Edition, die der ambitionierten Buchgestaltung Rechnung trägt und die überlieferungsgeschichtliche Dynamik des Textes und seiner buchmedialen Gestaltung abbildet.

Ausgaben und Bearbeitungen vor 1500

Brants ‚Narrenschiff‘ darf als ein Gründungsdokument der frühneuzeitlichen Narrenliteratur gelten. Sein Erfolg auf dem europäischen Buchmarkt war bemerkenswert. Allein zwischen 1494 und 1500 erschienen in Europa 28 Druckausgaben. Brant selbst hatte gemeinsam mit seinem Verleger Johann Bergmann von Olpe drei deutschsprachige Ausgaben (1494, 1495, 1499) in Basel publiziert. Kurz darauf erschienen die ersten Nachdrucke, Übersetzungen und Bearbeitungen: Noch im Jahr 1494 kamen unautorisierte Ausgaben in Nürnberg, Augsburg und Reutlingen auf den Markt. Wenig später wurde die sog. „interpolierte Fassung“ in Straßburg gedruckt. Für das europäische Fortwirken des ‚Narrenschiffs‘ entscheidend war, dass Brant eine lateinische Bearbeitung durch seinen Schüler Jakob Locher anfertigen ließ. Diese ‚Stultifera navis‘, die erstmals 1497 in Basel erschien, erfuhr bis 1500 sieben Neuauflagen und war ihrerseits Vorlage für mehrere Übertragungen in die europäischen Volkssprachen, u.a. ins Französische, Niederländische und Englische.

Stand der editorischen Erschließung

Die Druckgeschichte des ‚Narrenschiffs‘ und seiner frühneuzeitlichen Bearbeitungen wird durch die ‚Sebastian Brant Werkbibliographie‘ (Knape/Wilhelmi 2015) lückenlos dokumentiert. Während die Basler Erstausgabe mehrfach und gut ediert ist und einzelne frühneuzeitliche Bearbeitungen in brauchbaren Editionen vorliegen, existieren zu mehreren bedeutenden Nachdrucken und Bearbeitungen, die vor 1500 entstanden sind, keine oder nur methodisch problematische Textausgaben. Die Erschließung der europäischen ‚Narrenschiffe‘ des 15. Jahrhunderts ist ein Desiderat der Frühneuzeitforschung.

[bearbeiten]

Das Textkorpus

Die angestrebte digitale Edition umfasst die folgenden Ausgaben und Bearbeitungen des ‚Narrenschiffs‘, die zwischen 1494 und 1509 entstanden sind:

1 Sebastian Brants ‚Narrenschiff‘

Basel (Bergmann von Olpe) 11.2.1494 (GW 5041)
Basel (Bergmann von Olpe) 3.3.1495 (GW 5046)
Basel (Bergmann von Olpe) 12.2.1499 (GW 5047)

2 Unautorisierte deutschsprachige Bearbeitungen

Nürnberg (Peter Wagner) 1.7.1494 (GW 5042)
Straßburg (Johannes Grüninger) 1494, i.e. vor 23.5.1495 (GW 5048)

3 Niederländische und niederdeutsche Bearbeitungen

Paris (Guy Marchant), 6.6.1500 (GW 5066)
Lübeck (Mohnkopfdrucker) 1497 (GW 5053)

4 Jakob Lochers lateinische ‚Stultifera navis‘

Basel (Bergmann von Olpe) 1.3.1497 (GW 5054)
Basel (Bergmann von Olpe) 1.8.1497 (GW 5061)
Basel (Bergmann von Olpe) 1.3.1498 (GW 5062)
Paris (Geoffroi de Marnef) 8.3.1498 (GW 5064)

5 Französische Bearbeitungen

Pierre Rivière, ‚La nef des folz du monde‘
- Paris (Jean Lambert) für Geoffrey de Marnef 1497 (GW 5058)
Jean Drouyn, ‚La nef des folz du monde‘
- Lyon (Guillaume Balsarin) 11.8.1498 (GW 5059)
Geoffroi de Marnef: ‚La grant nef des folz du monde‘
- Paris (Etienne Jehannot [?] für Geoffroy de Marnef), 8.2.1499 (GW 5065)
‘La nef des folz’ und ‚La grand nef des folz‘
- Lyon (Guillaume Balsarin) 1498 bzw. 17.11.1499 (GW 5060)

6 Alexander Barclays englisches ‚The Shyp of Folys of the Worlde’

London (Richard Pynson) 14.12.1509

Das Kapitel 4 ("Der Modenarr") in europäischen Ausgaben vor 1500

[bearbeiten]

Modul OCR

Zur Erfassung des frühneuzeitlichen Schriftbilds hat sich die Erstellung offizinspezifischer Typentabellen bewährt.

Der erste Schritt zu einer digitalen Edition besteht in der Bereitstellung zuverlässiger Transkriptionen. Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erschlossen – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Diese computergestützten Transkriptionen werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet.

Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt wurden. Nach einer Vorverarbeitung der Scans erfolgt die Segmentierung mittels des semi-automatischen Open Source Tools LAREX [1]. Neben einer Bild/Text-Trennung wird hierbei bereits auf Layoutebene eine detaillierte semantische Auszeichnung vorgenommen, bei der die Textabschnitte in Unterkategorien wie Haupttext, Überschrift oder Marginalie unterteilt werden. Nach dem Extrahieren der markierten Segmente erfolgt die eigentliche OCR unter Verwendung des Open Source Tools OCRopus. Die einzelnen Schritte sind die Segmentierung in Zeilen, die Erstellung von Ground Truth, das Training eines Modells und die Zeichenerkennung. Durch die Erweiterung des Standard-OCRopus-Ansatzes um Techniken wie Voting [2] und Pretraining [3] konnte die erreichte Zeichengenauigkeit noch einmal signifikant gesteigert werden, in den meisten Fällen auf deutlich über 98%.

[1] Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). URL = https://arxiv.org/abs/1701.07396.

[2] Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe: Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting. Accepted for DAS2018. URL = https://arxiv.org/abs/1711.09670.

[3] Christian Reul, Christoph Wick, Uwe Springmann, Frank Puppe: Transfer Learning for OCRopus Model Training on Early Printed Books. In 027.7 Journal for Library Culture (2017). URL = http://0277.ch/ojs/index.php/cdrs_0277/article/view/169/366.

Synoptischer Transkriptionseditor

Die händische Nachkorrektur des OCR-Outputs wird durch den von KALLIMACHOS entwickelten synoptischen Transkriptionseditor erleichtert, der u.a. über eine eigene Benutzerverwaltung zur Planung und Aufgabenverteilung verfügt und die Korrektur und Auswahl der aus heutiger Sicht ungewohnten Drucktypen durch die Einbindung von Typentabellen unterstützt. Die für das frühneuzeitliche Druckbild typischen Sonderzeichen können in den Editor geladen werden und stehen bei der Korrektur schnell parat. Die aufwändige und fehleranfällige Suche nach den korrekten Unicode-Zeichen und die bei der Arbeit in externen Editoren oft auftretenden Probleme bei der Wahl der Textkodierung entfallen.

Semantic MediaWiki

Um die tranksribierten Texte gemeinsam in einer vollwertigen digitale Edition mit synoptischer Funktionalität zu vereinigen, sind umfangreiche Auszeichnungen von Text und Bild nötig. Layoutelemente wie Textspalten, Überschriften und Marginalien, aber auch semantische Komponenten wie die argumentative Struktur der Spruchgedichte werden verzeichnet und sollen auch über mehrere Ausgaben des Narrenschiffs hinweg auffindbar und vergleichbar sein. Auf der Basis von Semantic MediaWiki wird hierzu ein spezialisiertes Wiki-System geschaffen, über das die hierfür nötigen Auszeichnungen komfortabel konzeptionalisiert, strukturiert und implementiert sowie die für die spätere Anzeige im Portal benötigten Abfragen getestet werden können.

TEI-Export

Im Anschluss werden aus dem Semantic MediaWiki automatisch XML-basierte TEI-Dateien generiert, um die Langlebigkeit und plattformübergreifende Weiterverarbeitung der erarbeiteten Texte zu gewährleisten. Die TEI-Daten sind die Grundlage für die Online-Präsentation der ‚Narrenschiffe‘. Diese wird alle 15 ‚Narrenschiffe‘ unter einer Oberfläche integrieren. Die über ein gemeinsames Register verknüpften Texte werden als Faksimile, als Transkription und ggf. als behutsam normalisierte Lesefassung angezeigt werden können. Eine Zwei-Fenster-Synopse wird es ermöglichen, die ‚Narrenschiffe‘ kapitelweise einander gegenüberzustellen. Über die erstmalige digitale Texterfassung der ‚Narrenschiff‘ vor 1500 hinaus sollen die Synopse und die übergreifende, auf Layoutzonen einschränkbare Suchfunktion die literaturwissenschaftliche Untersuchung der frühen Überlieferungs- und Rezeptionsgeschichte des ‚Narrenschiffs‘ auf eine neue Grundlage stellen.

[bearbeiten]

Tagung: 'Les Nefs des folz en Europe'

Die von Brigitte Burrichter und Anne-Laure Metzger-Rambach veranstaltete, internationale Tagung "Les Nefs des folz en Europe" findet in Bordeaux vom 31.5. bis 1.6.2018 statt. Gegenstand sind die Bearbeitungen des ‚Narrenschiffs‘ und der ‚Stultifera navis‘ im frühneuzeitlichen Europa.

Aufsätze

Christine Grundig, Joachim Hamm, Viktoria Walter: Narragonien digital. Mit einer Analyse von Kapitel 4 des ‚Narrenschiffs‘ in Ausgaben und Bearbeitungen des 15. Jahrhunderts. In: Wolfenbütteler Notizen zur Buchgeschichte 2017 (bei den Herausgebern)

Brigitte Burrichter: Rahmen und intendiertes Publikum. Die Paratexte in Sebastian Brants 'Narrenschiff' und seinen Übersetzungen. In: Rahmungen. Präsentationsformen und Kanoneffekte. Hg. von Philip Ajouri, Ursula Kundert und Carsten Rohde. Berlin 2017, S. 107-122.

Joachim Hamm: Zu Paratextualität und Intermedialität in Sebastian Brants Vergilius pictus (Straßburg 1502). In: Intermedialität in der Frühen Neuzeit. Formen, Funktionen, Konzepte. Tagung an der Univ. Eichstätt, 28.-31.3.2012. Hg. v. Jörg Robert. Berlin, Boston 2017 (Frühe Neuzeit 209), S. 236-259.

Christine Grundig: Theologische Überformung des ‚Narrenschiffs‘. Geiler von Kaysersberg und die sogenannte ‚Interpolierte Fassung‘. In: Archiv für das Studium der neueren Sprachen und Literaturen 254 (2017), S.1-16.

Joachim Hamm: Intermediale Varianz. Sebastian Brants 'Narrenschiff' in deutschen Ausgaben des 15. Jahrhunderts. In: Überlieferungsgeschichte transdisziplinär. Neue Perspektiven auf ein germanistisches Forschungsparadigma. In Verbindung mit Horst Brunner und Freimut Löser hg. v. Dorothea Klein. Wiesbaden 2016 (Wissensliteratur im Mittelalter 52), S. 223-240.

Christine Grundig: Text und Paratext. Konzepte von Paratextualität in deutschsprachigen Werken Sebastian Brants. Masch. Magisterarbeit. Würzburg 2012.

Vorträge

Brigitte Burrichter: Sebastian Brant im Kontext. Workshop an der Ecole Normale Supérieure de Paris, 5. Februar 2018.

Joachim Hamm: Gelehrte Narreteien. Das 'Narrenschiff' von Sebastian Brant und das Würzburger Projekt "Narragonien digital". Vortrag im Alten Rathaus von Miltenberg in der Vortragsreihe des Unibundes, 16.1.2017.

Joachim Hamm: Eine integrierte digitale Edition der 'Narrenschiffe' vor 1500. Vortrag in der Vortragsreihe des Akademieprojekts "Der Österreichische Bibelübersetzer", Univ. Augsburg, 30.11.2017.

Brigitte Burrichter: Patrice et les Dernydes. Les versions françaises de la Nef des fous de Sebastian Brant. Vortrag bei der Tagung Translatio et histoire des idées an der Universität Warschau vom 19. bis 21. Oktober 2017.

Joachim Hamm: Unfeste Texte? Überlegungen zu den ‚Narrenschiffen‘der Frühen Neuzeit. Vortrag beim Internationalen Symposiums "Das 15. Jahrhundert", Melanchthon-Akademie Bretten, 12. bis 14. Oktober 2017.

Brigitte Burrichter: Sebastian Brants Narrenschiff und seine europäische Rezeption im 15. Jahrhundert, Vortrag bei der Tagung Deutsch-Romanischer Literatur- und Kulturtransfer in Spätmittelalter und Früher Neuzeit: Bilanz und Perspektiven der Oswald von Wolkenstein Gesellschaft in Brixen vom 13. bis 16. September 2017.

Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag im Workshop "Digitale Paläographie" (Interdisziplinäres Zentrum Editionswissenschaften, IZED), Univ. Erlangen, 12.-13.01. 2017.

Joachim Hamm: Narragonien digital. Gastvortrag an der Univ. Stuttgart, Digital Humanities (Prof. Dr. Gabriel Viehhauser), 15.12.2016

Christine Grundig: Theologische Überformung des 'Narrenschiffs' - Geiler von Kaysersberg und die sog. "Interpolierte Fassung". Vortrag beim 13. Altgermanistischen Kolloquium am Hesselberg, 4.-6.10.2016.

Christine Grundig: Narren en mouvance. Adaptationen des Narrenschiffs im 15. Jahrhundert. Vortrag beim Workshop Wissen von Mensch und Natur. Tradierung, Aktualisierung und Vermittlung in frühneuzeitlichen Übersetzungen des Graduiertenkollegs 1876 Frühe Konzepte von Mensch und Natur an der Universität Mainz,19.2.-20.2.2016.

Brigitte Burrichter, Raphaëlle Jung: Les Nefs des fols en ligne. Présentation d’un projet d’édition en ligne des "Nefs des fols" du XVe siècle. Vortrag bei der Jahrestagung der Association Internationale pour l’ étude du Moyen Français in Turin, 28.9.-1.10. 2016.

Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag beim XLIV. Internationalen Mediävistischen Colloquium in Castellabate (IT), 10-17.9.2016.

Brigitte Burrichter: „Rahmen und intendiertes Publikum. Die Paratexte in Sebastian Brants 'Narrenschiff' und seinen Übersetzungen“. Vortrag bei dem Theorie-Workshop „Rahmungen. Präsentationsformen kanonischer Werke“ des Forschungsverbundes Marbach Weimar Wolfenbüttel, Projekt „Text und Rahmen“, vom 29.-31.7.2015 an der Herzog August Bibliothek Wolfenbüttel.

Brigitte Burrichter, Joachim Hamm: Narragonien digital. Vortrag bei der Tagung Inkunabeln und Überlieferungsgeschichte des Wolfenbütteler Arbeitskreises für Bibliotheks-, Buch- und Mediengeschichte an der Universität Mainz, 29.6.-1.7.2015.

Christine Grundig: „Sebastian Brants 'Narrenschiff': Zur Bild-Text-Relation in deutschsprachigen und europäischen Ausgaben des Werkes.“ Vortrag beim 10. Altgermanistischen Kolloquium am Hesselberg vom 1.-3.10.2013.

OCR-Verfahren

Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017). URL = https://arxiv.org/abs/1701.07396.

Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe: Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting. Accepted for DAS2018. URL = https://arxiv.org/abs/1711.09670.

Christian Reul, Christoph Wick, Uwe Springmann, Frank Puppe: Transfer Learning for OCRopus Model Training on Early Printed Books. In 027.7 Journal for Library Culture (2017). URL = http://0277.ch/ojs/index.php/cdrs_0277/article/view/169/366.

Christian Reul, Uwe Springmann, Christoph Wick, Frank Puppe: Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting. In: https://arxiv.org/abs/1711.09670]

Felix Kirchner, Marco Dittrich, Phillip Beckenbauer, Maximilian Nöth: OCR bei Inkunabeln – Offizinspezifischer Ansatz der Universitätsbibliothek Würzburg. In: ABI Technik 36(3) 2016.

Martin Jenckel, Saqib Bukhari, Andreas Dengel: Clustering Benchmark for Characters in Historical Documents. 12th International Workshop on Document Analysis Systems, Greece 2016.

Pressespiegel

Das Narrenschiff steuert ins digitale Zeitalter. In: einBLICK, 14.04.2015.
„Narrenschiff“ auf digitalem Kurs. In: Damals online, 15.04.2015.
Narrenschiff nimmt Kurs auf Neuland. In: Campus-Magazin Univ. Würzburg Juni 2015, S. 18-19.
anyOCR – Intelligente Texterkennung steuert das „Narrenschiff“ ins digitale Zeitalter. In: Pressestelle DFKI, 14.04.2015.

[bearbeiten]

Projektgruppe Narragonien digital

Neuphilologisches Institut / Romanistik

Lehrstuhl für Französische und Italienische Literaturwissenschaft

Am Hubland, Bau 5

D-97074 Würzburg

Tel.: 0931 31-85681

Prof. Dr. Brigitte Burrichter

Julius Goldmann
Viktoria Walter (bis 10/2017)
Martina Gold (bis 10/2015)

Lehrstuhl für deutsche Philologie, Ältere Abteilung

Professur für deutsche Philologie, insb. Literaturgeschichte des späten Mittelalters und der frühen Neuzeit

Am Hubland, Bau 4

D-97074 Würzburg

Tel.: 0931 31-81679

Prof. Dr. Joachim Hamm

Studentische Hilfskräfte

Rena Buß
Raphaelle Jung
Tanja Kohl
Sebastian Leue
Christopher Schmauser
Theresa Tischler
Helena Wächter
Maximilian Wehner

Technische Partner

Zentrum für Philologie und Digitalität

Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail

Dr. Hans-Günter Schmidt (Leiter der Universitätsbibliothek)

Dr. Uwe Springmann (Projektleitung)

Regina Beitzinger (Organisation)

Dr. Herbert Baier-Saip (Systementwicklung und Systemadministration)

Dipl.-Inform. Felix Kirchner (Systementwicklung und OCR)

Martin Gruner (Entwicklung, Wiki-Systeme und OCR)

Dipl.-Ing. Marco Dittrich (Scantechnik, OCR, Digitalisierung)

Ulf Weinmann (Bildbearbeitung und Digitalisierung)

Irmgard Götz-Kenner (Bildbearbeitung und Fotografie)

Jonathan Gaede (Wiki-Systeme und Kommunikation mit den Use-Cases)

Lehrstuhl für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)

Arbeitsgruppe Data Mining und Information Retrieval

Am Hubland

D-97074 Würzburg

Tel.: 0931-31 86731

Prof. Dr. Frank Puppe
Christian Reul, M. Sc. (Segmentierung und OCR)

Studentische Hilfskräfte

Sefika Sila Karakaya (OCR)

Phillip Beckenbauer (OCR)

Maximilian Nöth (OCR)

Kooperationen

PD Dr. Michael Rupp, Germanistische Mediävistik und Frühneuzeitforschung, Univ. Karlsruhe
Universitätsbibliothek Basel, Abt. Handschriften und Alte Drucke
Bibliothek Otto Schäfer, Schweinfurt
Projekt „Mittelniederdeutsch in Lübeck“ (MiL; WWU Münster); Projektleitung: Dr. Robert Peters, Norbert Lange
Dr. Anne-Laure Metzger-Rambach , Université de Michel de Montaigne Bordeaux 3
Dr. Olga Anna Duhl, Lafayette College

@@ Zeile 120: / Zeile 120: @@
 Der erste Schritt zu einer digitalen Edition besteht in der Bereitstellung zuverlässiger Transkriptionen. Da nicht alle Texte händisch erfasst werden können, wird ein Teil durch OCR-Verfahren erschlossen – eine Herausforderung angesichts der verwendeten Drucktypen und des anspruchsvollen Layouts. Diese computergestützten Transkriptionen werden von der Projektgruppe ‚Narragonien digital‘ mit Unterstützung ihrer technischen Partner erarbeitet.
-Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt werden. Nach einer Vorverarbeitung der Scans erfolgt die Segmentierung mittels des semi-automatischen Open Source Tools LAREX [1]. Neben einer Bild/Text-Trennung wird hierbei bereits auf Layoutebene eine detaillierte semantische Auszeichnung vorgenommen, bei der die Textabschnitte in Unterkategorien wie Haupttext, Überschrift oder Marginalie unterteilt werden. Nach dem Extrahieren der markierten Segmente erfolgt die eigentliche OCR unter Verwendung des Open Source Tools OCRopus. Die einzelnen Schritte sind die Segmentierung in Zeilen, die Erstellung von Ground Truth, das Training eines Modells und die Zeichenerkennung. Durch die Erweiterung des Standard-OCRopus-Ansatzes um Techniken wie Voting [2] und Pretraining [3] konnte die erreichte Zeichengenauigkeit noch einmal signifikant gesteigert werden, in den meisten Fällen auf deutlich über 98%.
+Hierzu werden zunächst die für die OCR notwendigen Digitalisate eingeholt, die dank der jüngsten bibliothekarischen Digitalisierungsinitiativen bereits frei verfügbar sind oder für das Projekt in hoher Qualität neu erstellt wurden. Nach einer Vorverarbeitung der Scans erfolgt die Segmentierung mittels des semi-automatischen Open Source Tools LAREX [1]. Neben einer Bild/Text-Trennung wird hierbei bereits auf Layoutebene eine detaillierte semantische Auszeichnung vorgenommen, bei der die Textabschnitte in Unterkategorien wie Haupttext, Überschrift oder Marginalie unterteilt werden. Nach dem Extrahieren der markierten Segmente erfolgt die eigentliche OCR unter Verwendung des Open Source Tools OCRopus. Die einzelnen Schritte sind die Segmentierung in Zeilen, die Erstellung von Ground Truth, das Training eines Modells und die Zeichenerkennung. Durch die Erweiterung des Standard-OCRopus-Ansatzes um Techniken wie Voting [2] und Pretraining [3] konnte die erreichte Zeichengenauigkeit noch einmal signifikant gesteigert werden, in den meisten Fällen auf deutlich über 98%.
 [1] Christian Reul, Uwe Springmann, Frank Puppe: LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books. In Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage (2017).