Projektbeschreibung: Unterschied zwischen den Versionen
Aus Kallimachos
| Zeile 56: | Zeile 56: | ||
<br clear=all> | <br clear=all> | ||
Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der ''anyOCR''-Methode basierende Framework ''OCRoRACT'' entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes ''OCRoRACT''-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher. | Um dem Problem fehlender Ground Truth-Daten zum Training des Sequenzlernens zu begegnen, hat das DFKI das auf der ''anyOCR''-Methode basierende Framework ''OCRoRACT'' entwickelt. Hierbei wird zunächst ein konventionelles, auf Zeichensegmenten basierendes OCR-Verfahren bzw. dessen Erkennungsergebnis eingesetzt, um ein initiales OCR-Modell unter Verwendung einzelner erkannter Symbole zu trainieren. Diese (im Gegensatz zur Ground Truth) möglicherweise fehlerbehafteten Textzeilen werden dann, wie die sonst manuell erzeugte Ground Truth, zum Trainieren des Sequenzlernens verwendet. Durch die systemimmanente Einbeziehung von Kontextinformationen erlernt das System die weitgehende Korrektur etwaiger Fehler in dieser Pseudo-Ground Truth. Ein auf diese Weise auf historischen Dokumenten trainiertes ''OCRoRACT''-System lieferte bereits gute Erkennungsergebnisse trotz des zwangsweisen Verzichts auf die üblicherweise notwendigen Wörterbücher. | ||
<br clear=all> | |||
<br clear=all> | <br clear=all> | ||