Philtag 13: Unterschied zwischen den Versionen

Aktuelle Version vom 14. Mai 2020, 23:36 Uhr

<philtag n="13"/>

Am 25. und 26. Februar 2016 wurde unter der Leitung von KALLIMACHOS der 13. Workshop der Reihe <philtag/> abgehalten. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen.

[bearbeiten]

Tagungsbericht

Tag 1: Schwerpunkt OCR

Einen Themenschwerpunkt in diesem Jahr bildeten OCR-Verfahren, die am 1. Seminartag vorgestellt, diskutiert und praktisch erprobt wurden. Nach der Begrüßung und der Vorstellung des KALLIMACHOS-Projekts durch Dr. Hans-Günter Schmidt (UB Würzburg) folgte mit Dr. Uwe Springmann (CIS München) der erste Kurzvortrag zum Thema OCR von Inkunabeln. Galten diese lange als ungeeignet für die automatische Texterkennung, konnten inzwischen mithilfe neuer OCR-Ansätze auf der Basis neuronaler Netze erste Erfolge verzeichnet werden. Im anschließenden Vortrag stellte Dirk Wintergrün (MPIWG Berlin) die Bedeutung von OCR-Verfahren für die Erforschung wissenschaftlicher Überlieferungstraditionen und die Erfassung wissenschaftshistorischer Aktenbestände heraus. Elisa Herrmann (OCR-D Wolfenbüttel) stellte das Koordinationsprojekt OCR-D vor, dessen Ziel es ist, die Erfassung der Drucke des 16.-19. Jahrhunderts im deutschsprachigen Raum zu optimieren und künftige Förderlinien der DFG vorzubereiten. Dr. Syed Saqib Bukhari (DFKI Kaiserslautern) gewährte einen Einblick in das am DFKI entwickelte OCR-System OCRopus++, das Erkennungsgenauigkeiten auf historischen Drucken von über 98% verspricht, bevor Dr. Josep Lladós (CVC Barcelona) den ersten Vortragsblock mit einem Bericht über die automatisierte Informationsextraktion aus historischen Urkunden, Ehestandsverzeichnissen und weiteren genealogischen Quellen und die Nutzung der so erfassten Daten für die Rekonstruktion historischer sozialer Netzwerke abschloss.

Dr. Uwe Springmann und Dr. Hans-Günther Schmidt im Gespräch Vortrag Elisa Herrmann Vortrag Josep Llados

Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul (Lehrstuhl Informatik VI Würzburg) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig (Lehrstuhl Informatik I Würzburg) stellte das eigens entwickelte Tool Glyph Miner für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools Aletheia und Franken++ kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von Tesseract dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.

Der Ausklang erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.

Publikum Vortrag Benedikt Budig

Tag 2: Schwerpunkt Textmining

Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert (FAU Erlangen-Nürnberg) die statistischen Grundlagen des stilometrischen Abstandsmaßes Burrow´s Delta, das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt Identifikation von Übersetzern vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch (Nachwuchsgruppe CLiGS) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt hierzu auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts Leserlenkung in Bezug auf Romanfiguren vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG Narrative Techniken), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.

Fazit

Angesichts der Publikumsstärke von zeitweise knapp 80 Personen, der intensiven, konzentrierten Arbeitsatmosphäre und des großen Zuspruchs aller Teilnehmerinnen und Teilnehmer darf der 13. <philtag> als voller Erfolg gelten. Wir bedanken uns sehr herzlich sowohl bei den engagierten Rednerinnen und Rednern als auch beim Publikum für die zahlreiche Anregungen und die aktive Teilnahme am Tagungsprogramm. Wir freuen uns darauf, Sie bald wieder bei uns begrüßen zu dürfen.

[bearbeiten]

Tag 1: Schwerpunkt OCR

ca. 10:00	Registrierung und Begrüßung
10:15-12:30	Kurzvorträge:
10:15-10:30	Hans-Günter Schmidt: KALLIMACHOS und PhilTag, Organisatorisches
10:30-10:50	Uwe Springmann (CIS München): OCR von Inkunabeln: Herausforderungen und Herangehensweisen
10:50-11:10	Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte
11:10-11:30	Elisa Herrmann (OCR-D Wolfenbüttel): OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren
11:30-11:50	Kaffeepause
11:50-12:10	Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents
12:10-12:30	Josep Lladós (CVC Barcelona): Social networks of the past: information extraction from historical demographic documents
12:30-13:30	Mittagspause
13:30-16:30	OCR-Workshop: Praktische Vorstellung der am Würzburger Digitalisierungszentrum etablierten Tools und Arbeitsschritte zur OCR in frühneuzeitlichen Drucken
13:30-13:40	Begrüßung, Vorstellung der Grundproblematik
13:40-14:45	Segmentierung, Glyphen, Typeninventare
14:45-15:00	Kaffeepause
15:00-16:00	OCR-Training mit Aletheia und Franken+
16:00-16:30	Validierung von OCR-Ergebnissen
16:30-17:00	Zusammenfassung Tag 1, Abschlussdiskussion
ab 19:30	Abendessen im Restaurant Bürgerspital

Tag 2: Schwerpunkt Textmining

9:00-9:30	Stefan Evert, Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen
9:30-10:00	Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
10:00-10:30	Kaffeepause
10:30-11:00	Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen
11:00-11:30	Markus Krug ( AG Romanfiguren): Figuren und ihre Beziehungen in Romanen
11:30-12:00	Kaffeepause
12:00-12:30	Lena Hettinger, Isabella Reger ( AG Narrative Techniken): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen

Der Tagungsplan als Download

[bearbeiten]

Tagungsplan

Der Tagungsplan als Download

Abstracts und Präsentationen

Tag 1: Schwerpunkt OCR

Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen.
- Abstract
- Präsentation
Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren.
- Abstract
- Präsentation
Josep Lladós: Social networks of the past: information extraction from historical demographic documents.
- Abstract
Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte.
- Abstract
Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents.
- Abstract
- Präsentation
Marco Dittrich, Felix Kirchner (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop.
- Präsentation
Christian Reul (JMU Würzburg): Segmentierung von historischen Drucken.
- Abstract
Benedikt Budig (JMU Würzburg): Erstellung von Typeninventaren mit Glyph Miner.
- Abstract
Phillip Beckenbauer (JMU Würzburg): Extraktion von Glyphen mit Aletheia.
- Vortrag und Übung
Maximilian Nöth (JMU Würzburg): Erstellen von Trainingsdaten mit Franken+.
- Vortrag und Übung

Tag 2: Schwerpunkt Textmining

Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen.
- Abstract
- Präsentation
Andreas Büttner, Thomas Proisl (AG Identifikation von Übersetzern): Delta und Merkmalsselektion: Welche Wörter unterscheiden arabisch-lateinische Übersetzer?
- Abstract
- Präsentation
Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen.
- Abstract
- Präsentation
Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen.
- Abstract
- Präsentation

Software und Daten für den OCR-Workshop

(Sämtliche Software erfordert Windows 7 oder höher)

@@ Zeile 42: / Zeile 42: @@
 Im Nachmittagsprogramm folgte der interaktive OCR-Workshop, bei dem die im Rahmen von KALLIMACHOS etablierten Arbeitsabläufe und Tools vorgestellt wurden und durch die Teilnehmerinnen und Teilnehmer auch ausprobiert werden konnten. Zunächst stellten Felix Kirchner und Marco Dittrich die Anforderungen an die Bilderfassung und -Vorverarbeitung sowie die zu beachtenden Spezifika der Glyphen und Typeninventare historischer Drucktexte vor. Prof. Dr. Frank Puppe und Christian Reul ([http://www.is.informatik.uni-wuerzburg.de/startseite/ Lehrstuhl Informatik VI Würzburg]) präsentierten jüngste Erfolge bei der automatischen Segmentierung von Textblöcken. Benedikt Budig
-([http://www1.informatik.uni-wuerzburg.de/ Lehrstuhl Informatik I Würzburg]) stellte das eigens entwickelte Tool ''Glyph Miner'' für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools ''Aletheia'' und ''Franken++'' kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von ''Tesseract'' dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.
+([http://www1.informatik.uni-wuerzburg.de/ Lehrstuhl Informatik I Würzburg]) stellte das eigens entwickelte Tool [https://github.com/benedikt-budig/glyph-miner Glyph Miner] für die vereinfachte Extraktion von Glyphen vor, das von den Anwesenden begeistert aufgenommen wurde. Unter der Anleitung durch die studentischen Hilfskräfte Phillip Beckenbauer und Maximilian Nöth konnten die Teilnehmerinnen und Teilnehmer die Funktionsweise der Tools ''Aletheia'' und ''Franken++'' kennenlernen, die der Vorbereitung von Glypheninventaren für das Training von ''Tesseract'' dienen. Der Workshop endete mit der Produktion und der anschließenden Validierung der OCR-Ergebnisse.
 Der Ausklang erfolgte im Rahmen eines gemeinsamen Abendessens im Würzburger Bürgerspital, bei dem zu Speis und Trank die Eindrücke des ersten Seminartags (und mehr) lebhaft diskutiert und zahlreiche Kontakte geknüpft werden konnten.
@@ Zeile 51: / Zeile 51: @@
 ===Tag 2: Schwerpunkt Textmining===
-Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert ([http://www.linguistik.uni-erlangen.de/index.shtml FAU Erlangen-Nürnberg]) die statistischen Grundlagen des stilometrischen Abstandsmaßes ''Burrow´s Delta'', das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt [[Identifikation von Übersetzern]] vor, in dem Delta eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch ([https://cligs.hypotheses.org/ Nachwuchsgruppe CLiGS]) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt dabei auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts [[Romanfiguren | Leserlenkung in Bezug auf Romanfiguren]] vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG [[Narrative Techniken]]), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.
+Der 2. Seminartag behandelte aktuelle Digital Humanities-Projekte in Würzburg mit besonderem Schwerpunkt auf Textmining-Verfahren. Zunächst erläuterte Stefan Evert ([http://www.linguistik.uni-erlangen.de/index.shtml FAU Erlangen-Nürnberg]) die statistischen Grundlagen des stilometrischen Abstandsmaßes ''Burrow´s Delta'', das sich v.a. für automatische Autorschaftsattribution bewährt hat. Darauf aufbauend stellte Andreas Büttner das KALLIMACHOS-Teilprojekt [[Identifikation von Übersetzern]] vor, in dem ''Delta'' eingesetzt wird, um bislang anonyme lateinische Übersetzer von arabischen philosophischen Texten des 12. Jahrhunderts zu ermitteln. Daniel Schlör, Stefanie Popp und Christof Schöch ([https://cligs.hypotheses.org/ Nachwuchsgruppe CLiGS]) befassten sich mit der Problematik der Erkennung wörtlicher Rede in französischsprachigen Romanen. Da hier für gewöhnlich keine Anführungszeichen verwendet werden, muss die wörtliche Rede anhand anderer Merkmale erkannt werden; die Projektgruppe setzt hierzu auf Verfahren des maschinellen Lernens. Markus Krug stellte die Methoden und erste Ergebnisse des KALLIMACHOS-Teilprojekts [[Romanfiguren | Leserlenkung in Bezug auf Romanfiguren]] vor. Hier werden Romanfiguren automatisch annotiert und die gewonnenen Informationen zur Erstellung von Figurennetzwerken verwendet. Dabei sollen neben Eigennamen auch Koreferenzen, z.B. durch Pronomina, korrekt erkannt werden. Abschließend erläuterte Isabella Reger (KALLIMACHOS-AG [[Narrative Techniken]]), wie im Rahmen einer Sentimentanalyse der Stimmungsverlauf in einem Romantext erkannt werden kann und wie diese Information zur Klassifizierung literarischer Gattungen genutzt werden kann.
 ===Fazit===
@@ Zeile 112: / Zeile 112: @@
 | Zusammenfassung Tag 1, Abschlussdiskussion
 |-
-| Abendprogramm (Beginn 19:30)
+| ab 19:30
 | Abendessen im Restaurant [https://www.google.de/maps/place/Bürgerspital+Weingut/ Bürgerspital]
 |}
@@ Zeile 121: / Zeile 121: @@
 {| class="wikitable" cellpadding="10"
 | 9:00-9:30
-| Stefan Evert,Thomas Proisl  ([http://www.linguistik.uni-erlangen.de/index.shtml FAU Nürnberg]): ''Burrows’s Delta verstehen''
+| Stefan Evert, Thomas Proisl  ([http://www.linguistik.uni-erlangen.de/index.shtml FAU Nürnberg]): ''Burrows’s Delta verstehen''
 |-
 | 9:30-10:00
@@ Zeile 147: / Zeile 147: @@
 </p>
-=Downloads=
+=Materialien=
 ==Tagungsplan==
 <!-- Tagungsplan und Materialien -->
@@ Zeile 168: / Zeile 168: @@
 </div>
 -->
-* Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen
+* Uwe Springmann: OCR von Inkunabeln: Herausforderungen und Herangehensweisen.
 ** [[media:AbstractSpringmann.pdf | Abstract]]
 ** [[media:PresentationSpringmann.pdf | Präsentation]]
-* Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren
+* Elisa Herrmann:OCR-D: Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren.
 ** [[media:AbstractHerrmann.pdf | Abstract]]
 ** [[media:PresentationHerrmann.pdf | Präsentation]]
-* Josep Lladós: Social networks of the past: information extraction from historical demographic documents
+* Josep Lladós: Social networks of the past: information extraction from historical demographic documents.
 ** [[media:AbstractLlados.pdf | Abstract]]
 <!--** [[media:PresentationLlados.pdf | Präsentation]]-->
-* Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte
+* Dirk Wintergrün (MPIWG Berlin): Von Handarbeit zur Massenware - OCR als Grundlage für die Forschung in der Wissenschaftsgeschichte.
 ** [[media:AbstractWintergrün.pdf | Abstract]]
-* Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents
+* Syed Saqib Bukhari (DFKI Kaiserslautern): OCRopus++: A High performance OCR System For Medieval Documents.
 ** [[media:AbstractBukhari.pdf | Abstract]]
 ** [[media:PresentationBukhari.pdf | Präsentation]]
-* Marco Dittrich, Felix Kirchner (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop
+* Marco Dittrich, Felix Kirchner <!--,Christian Reul, Benedikt Budig, Phillip Beckenbauer und Maximilian Nöth--> (JMU Würzburg): Begleitende Präsentation zum OCR-Workshop.
-<!-- Budig, Reuel, etc.-->
 ** [[media:OCRWorkshop.pdf | Präsentation]]
+* Christian Reul (JMU Würzburg): Segmentierung von historischen Drucken.
+** [[media:AbstractReul.pdf | Abstract]]
+* Benedikt Budig (JMU Würzburg): Erstellung von Typeninventaren mit ''Glyph Miner''.
+** [[media:AbstractBudig.pdf | Abstract]]
+* Phillip Beckenbauer (JMU Würzburg): Extraktion von Glyphen mit ''Aletheia''.
+** [[media:VortragBeckenbauer.pdf | Vortrag und Übung]]
+* Maximilian Nöth (JMU Würzburg): Erstellen von Trainingsdaten mit ''Franken+''.
+** [[media:VortragNoeth.pdf | Vortrag und Übung]]
 ===Tag 2: Schwerpunkt Textmining===
-* Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen
+* Stefan Evert,Thomas Proisl (FAU Nürnberg): Burrows’s Delta verstehen.
 ** [[media:AbstractFAU.pdf | Abstract]]
 ** [[media:PresentationFAU.pdf | Präsentation]]
@@ Zeile 193: / Zeile 200: @@
 ** [[media:AbstractÜbersetzer.pdf | Abstract]]
 ** [[media:PresentationÜbersetzer.pdf | Präsentation]]
-*Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen
+*Daniel Schlör, Stefanie Popp, Christof Schöch (Nachwuchsgruppe CLiGS): Direkte Rede im französischen Roman: Automatische Erkennung und gattungsabhängige Verteilungen.
 ** [[media:AbstractDirekteRede.pdf | Abstract]]
 ** [[media:PresentationDirekteRede.pdf | Präsentation]]
-* Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen
+* Lena Hettinger, Isabella Reger (AG Romangattungen): Mit Sentimentanalyse zum Happy End? Experimente zur Klassifikation literarischer Gattungen.
 ** [[media:AbstractGattungen.pdf | Abstract]]
 ** [[media:PresentationGattungen.pdf | Präsentation]]
@@ Zeile 214: / Zeile 221: @@
 </p>
 <headertabs />
+{{Sprachauswahl|Philtag 13 (english)|Philtag 13}}
+__NOTOC__