Anagnosis: Unterschied zwischen den Versionen

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Version vom 25. November 2015, 10:30 Uhr

Anagnosis

Ziel des Projekts ist die automatisierte Verknüpfung zwischen Transkriptionen von Papyri und den Schriftzeichen der dazugehörigen Bilddatei. Dadurch soll eine Brücke zwischen papyrologischen Bilddatenbanken und der internationalen Volltextdatenbank für literarische Papyri (Digital Corpus of Literary Papyri, aufbauend auf papyri.info) geschlagen werden. Der eigens von KALLIMACHOS entwickelte Online-Editor soll neben einer Parallelanzeige die automatisierte Verknüpfung von Text und Abbildung auf Buchstabenebene ermöglichen. Ein solches alignment-Verfahren wird damit erstmalig auch für Papyrustexte nutzbar gemacht. Die angestrebte Verknüpfung von Bild und Text soll in der Zukunft erlauben, aus den in der Abbildung vorhandenen Buchstaben Alphabete herauszuziehen, die selbst wiederum für paläographische Vergleiche bzw. für eine graphische Rekonstruktion der Lücken herangezogen werden können.

[bearbeiten]

Alle Texte im Digital Corpus of Literary Papyri sind durch ein xml-Schema beschrieben und annotiert, das den Richtlinien von EpiDoc, eines subset der TEI (Text Encoding Initiative), entspricht. Das Grundmodell der TEI wird dabei erweitert und den geläufigen typographischen Konventionen papyrologischer Editionen angepaßt.

[bearbeiten]

Bild-Text-Verknüpfung

Aus der DCLP-Datenbank werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind. Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription.

Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte training tools zu bearbeiten hat bereits gute Ergebnisse gezeigt.

Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind zwar sowohl von der Qualität der Binarisierung als auch von der Schrifttypologie abhängig, lassen aber berechtigterweise annehmen, daß sich die automatisierte Boxenzuordnung, zumindest bei durch fertige Profile automatisch binarisierbaren Abbildungen, relativ einfach umsetzen läßt; problematischer ist freilich der Fall von Bildern, die ohnehin einer manuellen Nachbesserung bedürfen. (Stimmt das?)

Speicherung der Metadaten

Die auf diese Weise festgelegten Koordinaten (Normkoordinaten und Boxkoordinaten) werden anschließend automatisch im xml-Schema gespeichert. Verschiedene Versuche haben in dieser Hinsicht zur Anwendung zweier separater xml-Dateien geführt: Eine Datei enthält den Text mit den Metadaten; in der anderen werden die ermittelten Bildkoordinaten gespeichert. Jede Abbildung bzw. jeder Bildbereich sowie jede Texteinheit erhalten dabei eine eindeutige Identifikationsnummer, die Verknüpfungen zwischen den Dateien ermöglicht.

Der Anagnosis-Editor

Kernelement bei der Zuweisung von elektronischem Text, Bildern und Bildkoordinaten ist der eigens von KALLIMACHOS entwickelte Editor, der für die Zukunft auch für vergleichbare Projekte erweitert werden kann. Im Editor können die Nutzer einen Papyrustext über eine Identifikationsnummer (TM- oder Trismegistos-Nummer) auswählen. Eine in zwei Spalten aufgeteilte Seite erscheint. Eine Leiste im oberen Bereich gibt die wesentlichen Informationen zum Text (TM-Nummer, Autor und Titel, Publication-ID) wieder. In der linken Spalte wird eine Abbildung des Fragmentes bzw. der Kolumne angezeigt; Auf der rechten Seite können, je nach Wahl des Nutzers:

Allgemeine Informationen zum Status des Dokuments
Die xml-Datei mit Text und Metadaten sowie die Koordinatendatei
Die Transkription des abgebildete Papyrus
Die zu bearbeitende Transkription zur Zuweisung der Buchstabenboxen. (Häh?)

angezeigt werden.

Durch ein Drop-down-Menü kann der Nutzer zur gewünschten Texteinheit navigieren. Sofern verfügbar, wird das entsprechende Bild automatisch angezeigt. Sollten für eine Texteinheit mehrere Bilder zur Verfügung stehen, so können die Nutzer wählen, welchen Abbildungstyp der Editor anzeigen soll. Falls noch keine Abbildungen bestehen, können sie von den Nutzern selbst hochgeladen werden: Durch eine manuell verstellbare Normbox wird der Normbereich als Referenz für die Bildkoordinaten bestimmt. Wenn bereits des bearbeitete Papyri im Editor vorliegen, können so weitere Bilder zum selben Text (etwa bei Aufnahmen anderer Qualität oder durch andere Techniken angefertigte Faksimile) anhand der bereits vorhandenen Glyphenkoordinaten erneut segmentiert werden.

[bearbeiten]

Vorträge und Aufsätze

Kommt noch

Downloads

Kommt noch

Pressespiegel

Kommt noch

[bearbeiten]

Projektgruppe "Anagnosis"

Siehe bestehende.

Technische Partner

Siehe bestehende.

Partner

Siehe bestehende. Unterschied TP und Kooperation relevant?

@@ Zeile 10: / Zeile 10: @@
 =Arbeitsplan=
 ==Bild-Text-Verknüpfung==
-Aus der DCLP-Datenbank werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind (einige Beispiele der referenzierten Bilddatenbanken: Berliner Papyrusdatenbank, Oxyrhynchus Online, Papiri della Società Italiana). Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription.
+Aus der DCLP-Datenbank werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind. Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription.
 Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte training tools zu bearbeiten hat bereits gute Ergebnisse gezeigt.