Anagnosis: Unterschied zwischen den Versionen

Aus Kallimachos
Wechseln zu:Navigation, Suche
(Der Anagnosis-Editor)
(Der Seiteninhalt wurde durch einen anderen Text ersetzt: „{{Anagnosis:Main}}“)
 
Zeile 1: Zeile 1:
=Anagnosis=
+
{{Anagnosis:Main}}
[[File:AnagnosisDatentunnel.jpg | 600px |link= | alt= Papyri auf dem Weg ins digitale Zeitalter]]
 
<br clear=all>
 
 
 
==Anagnosis==
 
Ziel des Projekts ist die automatisierte Verknüpfung zwischen Transkriptionen von Papyri und den Schriftzeichen der dazugehörigen Bilddatei. Dadurch soll eine Brücke zwischen papyrologischen Bilddatenbanken und der internationalen Volltextdatenbank für literarische Papyri ([https://wiki.digitalclassicist.org/Digital_Corpus_of_Literary_Papyri Digital Corpus of Literary Papyri], aufbauend auf [http://www.papyri.info/ papyri.info]) geschlagen werden. Der eigens von KALLIMACHOS entwickelte Online-Editor soll neben einer Parallelanzeige die automatisierte Verknüpfung von Text und Abbildung auf Buchstabenebene ermöglichen. Ein solches  alignment-Verfahren wird damit erstmalig auch für Papyrustexte nutzbar gemacht. Die angestrebte Verknüpfung von Bild und Text soll in der Zukunft erlauben, aus den in der Abbildung vorhandenen Buchstaben Alphabete herauszuziehen, die selbst wiederum für paläographische Vergleiche und zur graphischen Rekonstruktion der Lücken herangezogen werden können.
 
 
 
==Ähnliche Projekte==
 
 
 
*[http://www.digipal.eu/ DigiPal - Digital Resource and Database of Palaeography, Manuscript Studies and Diplomatic]
 
 
 
*[http://www.codexsinaiticus.org/en/manuscript.aspx Codex Sinaiticus]
 
 
 
=Korpus=
 
==Arbeitsgrundlage==
 
[[File:Papyrus.jpg|100px|right|link=| alt= Längliches Papyrus]]
 
Das Datenkorpus, auf das Anagnosis zugreift, besteht aus zwei Hauptteilen:
 
 
 
* Digitale Kodierungen der Papyrustexte aus gedruckten Standardeditionen. Die Transkripte sind Teil des [http://isaw.nyu.edu/news/digital-literary-papyri Digital Corpus of Literary Papyri (DCLP)] und werden in [https://github.com/DCLP/idp.data/blob/dclp/DCLP/60/59506.xml EpiDoc xml-Format], einem subset der [http://www.tei-c.org/index.xml Text Encoding Initiative (TEI)], gespeichert. Das TEI-Modell wird dabei erweitert und den geläufigen typographischen Konventionen papyrologischer Editionen angepasst. Die xml-Dateien des DCLP  beinhalten sowohl eine digitale Transkription des jeweiligen Papyrustextes als auch die dazugehörigen Metadaten, etwa Autor/Genre des Textes, Fundort und Inventarnummer des Artefaktes, Informationen über dessen Aufbewahrung und Links zu den digitalen Abbildungen.
 
 
 
* Digitale Abbildungen von Papyri aus online-Bilddatenbanken, z.B. der [http://ww2.smb.museum/berlpap/ Berliner Papyrusdatenbank], der [http://www.psi-online.it/ Papiri della Società Italiana (PSI)] oder dem Portal [http://www.papyrology.ox.ac.uk/POxy/ Oxyrhynchus Online].
 
<br clear=all>
 
 
 
=Arbeitsplan=
 
==Bild-Text-Verknüpfung==
 
[[File:AnaBTL.png|300px|right|link=|alt=Faksimile eines Papyrus mit grün markierten Einzelglyphen]]
 
 
 
Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten  bereits einen Link zur URL der jeweiligen online-Abbildungen, auf die der Editor ebenso zugreift. Einzelne Texteinheiten (Kolumnen/Fragmente) des Transkriptes bekommen eine ID und werden über diese mit dem entsprechenden Bild verknüpft.
 
 
 
Die weitere Allinierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen und ein mithilfe von Normboxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht. Ein Versuch, Kupferstiche herkulanensischer Papyri durch auf ''Tesseract'' gestützte Trainingswerkzeuge zu bearbeiten hat bereits gute Ergebnisse gezeigt.
 
 
 
Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind von der Schrifttypologie stark abhängig, lassen jedoch berechtigterweise annehmen, dass im Verlauf des Projektes ein automatisiertes ''character spotting'', etwa durch ''stroke analysis'' und ähnliche Methoden, zu erzielen sein wird.
 
<br clear=all>
 
 
 
==Speicherung der Metadaten==
 
Die auf diese Weise festgelegten Koordinaten (Normkoordinaten und Boxkoordinaten) werden anschließend automatisch in einem validierten xml-Format gespeichert. Verschiedene Versuche haben in dieser Hinsicht zur Verwendung zweier separater xml-Dateien als ''best practice'' geführt: Eine Datei enthält den Text mit den Metadaten; in der anderen werden die ermittelten Bildkoordinaten gespeichert. Jede Abbildung bzw. jeder Bildbereich sowie jede Texteinheit erhalten dabei eine eindeutige Identifikationsnummer, die Verknüpfungen zwischen den Dateien ermöglicht.
 
 
 
== Der Anagnosis-Editor==
 
Kernelement bei der Zuweisung von elektronischem Text, Bildern und Bildkoordinaten ist der eigens von KALLIMACHOS entwickelte Editor, der für die Zukunft auch für vergleichbare Projekte erweitert werden kann.
 
Im Editor können die Nutzer einen Papyrustext über eine Identifikationsnummer (die TM- oder ''Trismegistos''-Nummer) auswählen.
 
[[File:AnagnosisEditor.png|border|center|600px|link=|alt=Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind]]
 
<br clear=all>
 
Eine in zwei Spalten aufgeteilte Seite erscheint. Eine Leiste im oberen Bereich gibt die wichtigsten Metadaten zum Text (TM-Nummer, Autor und Titel, Publication-ID) wider. In der linken Spalte wird eine Abbildung des Fragmentes bzw. der Kolumne angezeigt. Die rechten Spalte zeigt nach Wahl des Nutzers:
 
 
 
# Allgemeine Informationen zum Status des Dokuments
 
# Die xml-Datei mit Text und Metadaten sowie die Koordinatendatei
 
# Die Transkription des abgebildete Papyrus
 
# Die zu bearbeitende Transkription zur Zuweisung der Buchstabenboxen.
 
 
 
 
 
Durch ein Drop-down-Menü kann der Nutzer zur gewünschten Texteinheit navigieren. Sofern verfügbar, wird das entsprechende Bild automatisch angezeigt. Sollten für eine Texteinheit mehrere Bilder zur Verfügung stehen, können die Nutzer wählen, welchen Abbildungstyp der Editor anzeigen soll. Falls noch keine Abbildungen verfügbar sind, können sie von den Nutzern selbst hochgeladen werden:
 
Durch eine manuell verstellbare Normbox wird der Normbereich als Referenz für die Bildkoordinaten bestimmt. Wenn bereits bearbeitete Papyri im Editor vorliegen, können so weitere Bilder zum selben Text (etwa bei Aufnahmen anderer Qualität oder durch andere Techniken angefertigte Faksimile) anhand der bereits vorhandenen Glyphenkoordinaten erneut segmentiert werden.
 
 
 
Eine ausführliche Anleitung zur Verwendung des Anagnosis-Editors in englischer Sprache finden Sie [[Anagnosis_Guide | hier]].
 
<!--
 
=Publikationen=
 
== Vorträge und Aufsätze ==
 
 
 
Inhalt
 
 
 
==Downloads==
 
 
 
Inhalt
 
 
 
==Pressespiegel==
 
 
 
Inhalt
 
-->
 
 
 
=Kontakt=
 
==Projektgruppe ''Anagnosis''==
 
{{Adresse Anagnosis}}
 
<br clear=all>
 
*Prof. Dr. Dr. h.c. [http://www.klassphil.uni-wuerzburg.de/lehrstuhl_i_graezistik/alt/personal/prof_dr_dr_hc_michael_erler/ Michael Erler]
 
*AR Dr. [http://www.klassphil.uni-wuerzburg.de/mitarbeiter_des_instituts/lehrstuhl_i_graezistik/ar_dr_holger_essler/ Holger Essler]
 
*[https://scuola.academia.edu/VincenzoDamiani Vincenzo Damiani], M.A.
 
<br clear=all>
 
 
 
== Technische Partner ==
 
{{Adresse Kallimachos}}
 
<br clear=all>
 
*Dr. [https://elmut.uni-wuerzburg.de/person/23791 Hans-Günter Schmidt] (Projektleitung)
 
 
 
*Dr. [https://elmut.uni-wuerzburg.de/person/916 Herbert Baier] (Entwicklung)
 
 
 
*Dipl.-Inform. [https://elmut.uni-wuerzburg.de/person/13342 Felix Kirchner] (Entwicklung)
 
<!--
 
*[https://elmut.uni-wuerzburg.de/person/79876 Martin Gruner] (Entwicklung)
 
-->
 
*Dipl.-Ing. [https://elmut.uni-wuerzburg.de/person/4518 Marco Dittrich] (Bildbearbeitung und Scantechnik)
 
 
 
*[https://elmut.uni-wuerzburg.de/person/7302 Jonathan Gaede] (Öffentlichkeitsarbeit)
 
<br clear=all>
 
 
 
== Kooperationen ==
 
{| margin="20"
 
| [http://www.cispe.org/ Centro Internazionale per lo Studio dei Papiri Ercolanesi "Marcello Gigante"], Università degli Studi di Napoli „Federico II“
 
| [[File:CispeLogo.png | x50px | link=| alt=Logo des CISPE]]
 
|-
 
|AristarchusX - Software for the Grammatical Analysis and Annotation of Greek. (Texte: [https://www.uam.es/proyectosinv/regula/drianno_uam.html Daniel Riaño Rufilanchas], Universidad Autónoma de Madrid)
 
| [[File:AristarchusXLogo.png| x50px | link=| alt=Logo von AristarchusX]]
 
|-
 
| [http://www.uni-heidelberg.de/fakultaeten/philosophie/zaw/papy/ Institut für Papyrologie], Ruprecht-Karls-Universität Heidelberg
 
| [[File:HeidelbergLogo.jpg| x50px | link=| alt=Logo der Universiät Heidelberg]]
 
|-
 
|[http://www.epikur-wuerzburg.de/ Würzburger Zentrum für Epikureismusforschung], Julius-Maximilians-Universität Würzburg, Institut für Klassische Philologie
 
| [[File:EpikurLogo.jpg| 100px | link=| alt=Logo des Epikur.Zentr.]]
 
|-|
 
|[http://isaw.nyu.edu/ Institute for the Study of the Ancient World], New York University
 
| [[File:IsawLogo.png| x50px | link=| alt=Logo des ISAW]]
 
|}
 
 
 
<headertabs />
 

Aktuelle Version vom 23. März 2016, 12:00 Uhr

[bearbeiten]

 Papyri auf dem Weg ins digitale Zeitalter

Anagnosis

Ziel des Projekts Anagnosis ist die automatisierte Verknüpfung zwischen Transkriptionen von Papyri und den Schriftzeichen der dazugehörigen Bilddatei. Dadurch soll eine Brücke zwischen papyrologischen Bilddatenbanken und der internationalen Volltextdatenbank für literarische Papyri (Digital Corpus of Literary Papyri, aufbauend auf papyri.info) geschlagen werden. Der eigens von KALLIMACHOS entwickelte Online-Editor soll neben einer Parallelanzeige die automatisierte Verknüpfung von Text und Abbildung auf Buchstabenebene ermöglichen. Ein solches alignment-Verfahren wird damit erstmalig auch für Papyrustexte nutzbar gemacht. Die angestrebte Verknüpfung von Bild und Text soll in der Zukunft erlauben, aus den in der Abbildung vorhandenen Buchstaben Alphabete herauszuziehen, die selbst wiederum für paläographische Vergleiche und zur graphischen Rekonstruktion der Lücken herangezogen werden können.

Ähnliche Projekte

Förderphase II

Eine eingehende Darstellung der Ergebnisse der zweiten Förderphase finden Sie hier.

Arbeitsgrundlage

 Längliches Papyrus

Das Datenkorpus, auf das Anagnosis zugreift, besteht aus zwei Hauptteilen:

  • Digitale Kodierungen der Papyrustexte aus gedruckten Standardeditionen. Die Transkripte sind Teil des Digital Corpus of Literary Papyri (DCLP) und werden in EpiDoc xml-Format, einem subset der Text Encoding Initiative (TEI), gespeichert. Das TEI-Modell wird dabei erweitert und den geläufigen typographischen Konventionen papyrologischer Editionen angepasst. Die xml-Dateien des DCLP beinhalten sowohl eine digitale Transkription des jeweiligen Papyrustextes als auch die dazugehörigen Metadaten, etwa Autor/Genre des Textes, Fundort und Inventarnummer des Artefaktes, Informationen über dessen Aufbewahrung und Links zu den digitalen Abbildungen.


Bild-Text-Verknüpfung

Faksimile eines Papyrus mit grün markierten Einzelglyphen

Aus der DCLP-Datenbank werden Texte und Metadaten in den Anagnosis-Editor importiert. Die Metadaten zu den einzelnen Papyrustexten beinhalten bereits die URL der jeweiligen online-Abbildung, auf die der Editor ebenso zugreift. Einzelne Texteinheiten (Kolumnen/Fragmente) des Transkriptes bekommen eine ID und werden über diese mit dem entsprechenden Bild verknüpft.

Die weitere Allinierung zwischen Textbereichen (Zeilen und Buchstaben) wird über die Textposition der Glyphen und ein mithilfe von Normboxen bestimmtes Koordinatensystem gewährleistet. Zunächst wird auf das Textfeld in der Abbildung ein Normbereich aufgezogen und ggf. rotiert. Dieser dient als Referenz für die durch vier Werte festgelegten Normkoordinaten. Eine OCR-Segmentierung erzeugt Glyphenboxen mit den entsprechenden Koordinaten, wobei sich die Positionierung der Glyphenkoordinaten auf die bereits festgelegte Normbox bezieht.

Die Resultate der Anwendung dieses Verfahrens auf photographische Aufnahmen sind von der Schrifttypologie stark abhängig, lassen jedoch berechtigterweise annehmen, dass im Verlauf des Projektes ein automatisiertes character spotting, etwa durch stroke analysis und ähnliche Methoden, zu erzielen sein wird.

Speicherung der Metadaten

Die auf diese Weise festgelegten Koordinaten (Normkoordinaten und Boxkoordinaten) werden anschließend automatisch in einem validierten xml-Format gespeichert. Verschiedene Versuche haben in dieser Hinsicht zur Verwendung zweier separater xml-Dateien als best practice geführt: Eine Datei enthält den Text mit den Metadaten; in der anderen werden die ermittelten Bildkoordinaten gespeichert. Jede Abbildung bzw. jeder Bildbereich sowie jede Texteinheit erhalten dabei eine eindeutige Identifikationsnummer, die Verknüpfungen zwischen den Dateien ermöglicht.

Der Anagnosis-Editor

Eine ausführliche Anleitung zur Verwendung des Anagnosis Editors in englischer Sprache finden Sie hier.

Kernelement bei der Zuweisung von elektronischem Text, Bildern und Bildkoordinaten ist der eigens von KALLIMACHOS entwickelte Editor, der für die Zukunft auch für vergleichbare Projekte erweitert werden kann. Im Editor können die Nutzer einen Papyrustext über eine Identifikationsnummer (die TM- oder Trismegistos-Nummer) auswählen.

Ansicht des Transkriptionseditors. Links ist der Originalscan, rechts der bearbeitete Transkriptionstext. In einem aufgerufenen Fenster können verschiedene historische Glyphen ausgewählt werden, die auf einer heutigen Computertastatur nicht zu finden sind


Eine in zwei Spalten aufgeteilte Seite erscheint. Eine Leiste im oberen Bereich gibt die wichtigsten Metadaten zum Text (TM-Nummer, Autor und Titel, Publication-ID) wider. In der linken Spalte wird eine Abbildung des Fragmentes bzw. der Kolumne angezeigt. Die rechten Spalte zeigt nach Wahl des Nutzers:

  1. Allgemeine Informationen zum Status des Dokuments
  2. Die xml-Datei mit Text und Metadaten sowie die Koordinatendatei
  3. Die Transkription des abgebildeten Papyrus
  4. Die zu bearbeitende Transkription zur Zuweisung der Buchstabenboxen.


Durch ein Drop-down-Menü kann der Nutzer zur gewünschten Texteinheit navigieren. Sofern verfügbar, wird das entsprechende Bild automatisch angezeigt. Sollten für eine Texteinheit mehrere Bilder zur Verfügung stehen, können die Nutzer wählen, welchen Abbildungstyp der Editor anzeigen soll. Falls noch keine Abbildungen verfügbar sind, können sie von den Nutzern selbst verknüpft werden: Durch eine manuell verstellbare Normbox wird der Normbereich als Referenz für die Bildkoordinaten bestimmt. Wenn bereits bearbeitete Papyri im Editor vorliegen, können so weitere Bilder zum selben Text (etwa bei Aufnahmen anderer Qualität oder durch andere Techniken angefertigte Faksimile) anhand der bereits vorhandenen Glyphenkoordinaten erneut segmentiert werden.

Vorträge und Aufsätze

 Längliches Papyrus
  • Holger Essler, Vincenzo Damiani: Anagnosis - Automatisierte Buchstabenverknüpfung von Transkript und Papyrusabbildung. Präsentation zum Workshop Altertumswissenschaften in a Digital Age: Egyptology, Papyrology and Beyond, Universität Leipzig, November 2015. Permalink.


Projektgruppe Anagnosis


Lehrstuhl I (Gräzistik)

Residenzplatz, 2 (Südflügel)

D-97070 Würzburg



Technische Partner


Am Hubland

D-97074 Würzburg

Telefon: 0931/31-80534

E-mail


Forschungsgruppe Wissensmanagement

Trippstadter Straße 122

67663 Kaiserslautern

Tel.: 0631 20575-1000

E-Mail



Kooperationen

Centro Internazionale per lo Studio dei Papiri Ercolanesi "Marcello Gigante", Università degli Studi di Napoli „Federico II“ Logo des CISPE
AristarchusX - Software for the Grammatical Analysis and Annotation of Greek. (Texte: Daniel Riaño Rufilanchas, Universidad Autónoma de Madrid) Logo von AristarchusX
Institut für Papyrologie, Ruprecht-Karls-Universität Heidelberg Logo der Universiät Heidelberg
Würzburger Zentrum für Epikureismusforschung, Julius-Maximilians-Universität Würzburg, Institut für Klassische Philologie Logo des Epikur.Zentr.
Institute for the Study of the Ancient World, New York University Logo des ISAW