Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird.

Die Texterkennung selbst erfolgt dreistufig:

1. Seiten- und Gliederungserkennung
Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.

2. Mustererkennung Fehlerkorrektur auf Pixelebene
Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixel korrigiert werden.
Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.
Mustervergleich Mapping Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen, Rohdigitalisate werden erzeugt. Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)
Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet.
In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt.
Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR) Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, werden anhand globaler Charakteristiken mit Wörterbüchern verglichen.
Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, z. B. handgeschriebene Adressen auf Briefumschlägen.

3. Codierung in das Ausgabeformat
Je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank oder als Textdatei in einem definierten Format wie ASCII oder XML, gegebenenfalls auch mit Layout (z. B. als HTML oder PDF).
Die Qualität der Texterkennung bestimmen mehrere Faktoren, u. a.:
Qualität der Layouterkennung,
Umfang und Qualität der Muster-Datenbank,
Umfang und Qualität der Wörterbücher,
Qualität der Algorithmen zur Fehlerkorrektur, *
Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes, Auflösung und Qualität der Bilddatei.

Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80 % erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99 %. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen.

Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe Rechtschreibfehler. Während Texte Redundanzen enthalten und deshalb eine höhere Fehlerrate zulassen, erfordern Zahlenlisten, wie z. B. Telefonnummern, ein mehrmaliges Korrekturlesen.

Quelle: www.wikipedia.org



Diese Seiten sind in XHTML 1.0 und CSS2 konsequent barrierefrei gestaltet und nach W3C-Norm validiert.


Valid XHTML 1.0!
(externer Link in
neuem Fenster)
Valid CSS! (externer Link in
neuem Fenster)