Anagnosis: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| Zeile 10: | Zeile 10: | ||
=Arbeitsplan= | =Arbeitsplan= | ||
==Bild-Text-Verknüpfung== | ==Bild-Text-Verknüpfung== | ||
Aus der DCLP-Datenbank werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind | Aus der DCLP-Datenbank werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind. Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription. | ||
Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte training tools zu bearbeiten hat bereits gute Ergebnisse gezeigt. | Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte training tools zu bearbeiten hat bereits gute Ergebnisse gezeigt. | ||