OCR

aus GlossarWiki, der Glossar-Datenbank der Fachhochschule Augsburg
Wechseln zu:Navigation, Suche
Dieser Artikel sollte überarbeitet werden.
Die Regeln für GlossarWiki-Artikel sollten beachten werden.
Der Titel des Artikels sollte geändert werden.
In diesem Artikel sollten die Quellenangaben überarbeitet werden.
Bitte die Regeln der GlossarWiki-Quellenformatierung beachten.

Dieser Artikel ist nicht korrekt kategorisiert (siehe Regeln für GlossarWiki-Artikel).

1 Einführung

Unter OCR versteht man Optische-Zeichen-Erkennung (Optical Character Recognition). Es handelt sich hierbei um ein Verfahren, mit welchem Schriftstücke einem Computer verfügbar gemacht bzw digitalisiert werden können.


2 Funktionsweise

Zuerst wird im Normalfall ein Dokument mit Hilfe eine Scanners dem Computer zugeführt. Dieses wird als nächstes von der OCR-Software bearbeitet, welche in mehreren Phasen vorgeht. Hierbei wird zuerst das eingescannte Dokument in mehrere Bereiche eingeteilt, um Grafiken und Textblöcke zu unterscheiden. Darauf folgt die Zeichenanalyse, welche entweder durch eine sogenannte Überdeckungsanalyse, also dem Vergleich mit einem vorher definierten Zeichensatz oder Topologieerkennung, bei welcher die Linien und deren Verlauf analysiert werden. Im letzten Schritt wird im einfachsten Fall der erkannte Text mit einem internen Wörterbuch verglichen. Moderne OCR-Software bietet z.B. eine Anbindung an das MS Word-Wörterbuch, ausgefeiltere Software zusätzlich eine statistische Berechnung der Fehlerwarscheinlichkeit und verbessert damit den Anteil des erfolgreicherkannten Textes.

3 Quellen