OCR-Nachbearbeitung

Deep Learning Verfahren für OCR-Nachbearbeitung

Anbindung: TU Darmstadt

Assoziiert seit: Dezember 2016

CEDIFOR Projektbeteiligte

CEDIFOR Partner:

Kurzbeschreibung

Auch modernste Verfahren zur Zeichenerkennung aus dem OCR Bereich liefern selten perfekte Ergebnisse. Dementsprechend groß ist die Notwendigkeit einer Nachbearbeitung der mittels OCR generierten Texte. Hierbei wiederum ist die größte Herausforderung, einen intelligenten Algorithmus zu entwickeln, der nur die tatsächlich falsch erkannten Zeichen korrigiert und keine zusätzlichen Fehler im erkannten Text verursacht. Im Rahmen des vorliegenden Projekts werden in Zusammenarbeit mit der Universitäts- und Landesbibliothek Darmstadt u.a. Deep Learning basierte Verfahren für die Nachbearbeitung von OCR-erkannten Dokumente getestet.

Projektergebnisse

Publikationen:

  • Schnober, C., Eger, S., Do Dinh, E. & Gurevych, I. (2016). Still not there? Comparing Traditional Sequence-to-Sequence Models to Encoder-Decoder Neural Networks on Monotone String Translation Tasks. In Proceedings of the the 26th International Conference on Computational Linguistics (COLING), 1703-1714.