Philtag 14: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 29: | Zeile 29: | ||
===Tag 2=== | ===Tag 2=== | ||
Der zweite Veranstaltungstag begann mit zwei Vorträgen des Würzburger Lehrstuhls für Künstliche Intelligenz und Angewandte Informatik (Informatik VI): | Der zweite Veranstaltungstag begann mit zwei Vorträgen des Würzburger [http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhls für Künstliche Intelligenz und Angewandte Informatik (Informatik VI)]: Markus Krug präsentierte mit ATHEN ein Werkzeug zur Annotation von Textkorpora. ATHEN ist in der Lage, verschiedene Arten von digitalen Texten zu importieren, um diese mit weiteren Informationen anzureichern. Auf diese Weise können z.B. Eigennamen sowie die sich auf sie beziehenden Personalpronomen erkannt und ausgezeichnet werden. Darüber hinaus kann ATHEN automatisch direkte Rede inklusive der Sprecher und Angesprochenen sowie eine Vielzahl weiterer Merkmale literarischer und nichtliterarischer Texte erkennen. Christian Reul (Lehrstuhl Informatik VI) stellte das Tool LAREX vor, das eine vereinfachte Segmentierung und Layout-Analyse von frühen Buchdrucken ermöglicht. Das Tool schlägt hierzu Bildregionen im gescannten Text vor und versucht, diese automatisch z.B. als Fließtexte, Illustrationen, Marginalien oder Kopfzeilen zu klassifizieren. Die Ergebnisse können z.B. zur automatischen OCR-Erfassung oder zur Verknüpfung von digitalem Text und den dazugehörigen Bildregionen genutzt werden. | ||
Günter Mühlberger (Universität Innsbruck, [https://www.uibk.ac.at/germanistik/dea/ DEA]) stellte die Online-Forschungsinfrastruktur [https://transkribus.eu/Transkribus/ Transkribus] vor, die verschiedene Tools zur automatischen Dokumentenanalyse vereint. Zu den mit Transkribus analysierbaren Texten gehören insb. auch handschriftliche Texte. | |||
Auch die beiden abschließenden Vorträge des Münchner Centrums für Informations- und Sprachverarbeitung ([http://www.cis.uni-muenchen.de/ CIS]) beschäftigen sich mit der OCR historischer Texte: Uwe Springmann diskutierte die Herausforderungen bei der OCR von Frühdrucken, insb. hinsichtlich der Vor- und Nachteile von gemischten und von individuell für den jeweiligen Text erstellten OCR-Modellen. Florian Fink stellte schließlich die am CIS verwendete Software PoCoTo vor, die eine vereinfachte interaktive Nachkorrektur von OCR-erzeugten Transkriptionen ermöglicht. | |||
Auch die beiden abschließenden Vorträge des Münchner Centrums für Informations- und Sprachverarbeitung (CIS) beschäftigen sich mit der OCR historischer Texte: Uwe Springmann diskutierte die Herausforderungen bei der OCR von Frühdrucken, insb. hinsichtlich der Vor- und Nachteile von gemischten und von individuell für den jeweiligen Text erstellten OCR-Modellen. Florian Fink stellte schließlich die am CIS verwendete Software PoCoTo vor, die eine vereinfachte interaktive Nachkorrektur von OCR-erzeugten Transkriptionen ermöglicht. | |||
===Fazit=== | ===Fazit=== | ||