Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 61: | Zeile 61: | ||
<br clear=all> | <br clear=all> | ||
===Offizinspezifische Typeninventare=== | <!--===Offizinspezifische Typeninventare=== | ||
[[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | [[File:CollageOCR.png|thumbnail|Erstellung von Typentabellen am Beispiel des Teilprojekts [[Narragonien]].| link=http://kallimachos.de/kallimachos/images/kallimachos/0/03/CollageOCR.png | alt=Collage verschiedener Typentabellen]] | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | ||
<br clear=all> | <br clear=all> | ||
--> | |||
<!-- | <!-- | ||
Alt | Alt | ||