Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 55: | Zeile 55: | ||
*Entwicklung von „Wörterbüchern“ für historische Orthographien, | *Entwicklung von „Wörterbüchern“ für historische Orthographien, | ||
*Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | *Weiterentwicklung der nichtparametrischen Methoden für die Bildvorverarbeitung, Layoutanalyse und Sprachmodellierung. | ||
Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | Die OCR-Arbeitsgruppe an der UB Würzburg begleitet und evaluiert auf den Spuren etablierter Tools, etwa aus dem EMOP-Projekt (''Franken+, Gamera, Tesseract'') den Entwicklungsprozess am DFKI. Dazu werden verlags- bzw. offizinspezifischen Typeninventare in einem MUFI-Zeichensatz erstellt, wobei das eigens entwickelte Tool Glyph Miner wertvolle Dienste leistet. Mithilfe dieser Typeninventare können offizinspezifische OCR-Trainingsdaten erzeugt werden, die zur Erfassung weitere Texte der Offizin mit demselben Typeninventar genutzt werden können. Dieser Ansatz erbrachte mit der Tesseract-Enginge bereits Erkennungsgenauigkeiten von über 93%, die zuvor auf vergleichbarem Material noch nie erreicht wurden. | ||
<br clear=all> | <br clear=all> | ||