Anagnosis: Unterschied zwischen den Versionen
Aus Kallimachos
Keine Bearbeitungszusammenfassung |
|||
| Zeile 30: | Zeile 30: | ||
Aus der Datenbank des DCLP werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind. Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription. | Aus der Datenbank des DCLP werden Texte samt Metadaten in den Anagnosis-Editor importiert und dort weiterbearbeitet. Die Metadaten zu den Dokumentierungsmaßnahmen (Typologie, Datum und Autor der Wiedergabe) der einzelnen Papyrustexte beinhalten einen Link zur URL der jeweiligen Abbildungen, die bereits online verfügbar sind. Durch eindeutige Identifikatoren für jede Texteinheit und Abbildung erfolgt zuerst die Verknüpfung zwischen Bild und entsprechender Transkription. | ||
Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte | Die weitere Alliniierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen durch ein mittels Boxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf Tesseract gestützte Trainingswerkzeuge zu bearbeiten hat bereits gute Ergebnisse gezeigt. | ||
Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind zwar sowohl von der Qualität der Binarisierung als auch von der Schrifttypologie abhängig, lassen aber berechtigterweise annehmen, daß sich die automatisierte Boxenzuordnung, zumindest bei durch fertige Profile automatisch binarisierbaren Abbildungen, relativ einfach umsetzen läßt; problematischer ist freilich der Fall von Bildern, die ohnehin einer manuellen Nachbesserung bedürfen. (Stimmt das?) | Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind zwar sowohl von der Qualität der Binarisierung als auch von der Schrifttypologie abhängig, lassen aber berechtigterweise annehmen, daß sich die automatisierte Boxenzuordnung, zumindest bei durch fertige Profile automatisch binarisierbaren Abbildungen, relativ einfach umsetzen läßt; problematischer ist freilich der Fall von Bildern, die ohnehin einer manuellen Nachbesserung bedürfen. | ||
(Stimmt das so noch?) | |||
==Speicherung der Metadaten== | ==Speicherung der Metadaten== | ||