Was ist optische Zeichenerkennung?

Die optische Zeichenerkennung, oder OCR (Optical Character Recognition) ist eine Technologie, die es dem Benutzer ermöglicht, gescannte Papierdokumente, PDFs und Bilder in bearbeitbare, durchsuchbare und maschinenlesbare Texte umzuwandeln.

OCR nutzt künstliche Intelligenz und Mustererkennung, um Zeichen in Bildern zu identifizieren und den entsprechenden Text zu extrahieren. Dieser Text wird für zahlreiche Funktionen wie Archivierung, Digitalisierung oder Erstellung durchsuchbarer Datenbanken verwendet.

Was ist optische Handschrifterkennung?

Die Handschrifterkennung ist eine der wichtigsten und am häufigsten verwendeten OCR-Typen. Sie wird auch als handschriftliche Zeichenerkennung (Handwritten Character Recognition, HCR) oder handschriftliche Texterkennung bezeichnet.

Es gibt neun verschiedene Methoden, mit denen die Zeichen in diesen Dokumenten richtig erkannt werden können. Dies sind: incremental recognition, part-based, ensemble, convolutional neural network, support vector machines, semi incremental recognition, zoning, slope and slant correction, line and word segmentation.

Incremental Recognition

Bezieht sich auf das schrittweise Lernen eines Systems im Laufe der Zeit. Diese Systeme werden oft als Online-Lernsysteme bezeichnet. Der Computer erkennt die Schriftzeichen eines Benutzers, lernt den Schreibstil des Benutzers kennen und kann dessen Handschrift mit der Zeit immer schneller erfassen, wodurch das System immer genauer wird.

Bestellen Sie KI-Trainingsdaten, die speziell für Ihr optisches Zeichenerkennungssystem erstellt wurden.

Part-Based Recognition Methode

Erfasst handgeschriebene Zeichen ohne ihre genaue Position im Bild zu kennen, wobei die Zeichen an verschiedenen Stellen im Bild erscheinen können.

Ensemble Recognition Methode

Gruppiert ähnliche handgeschriebene Wörter oder Zeichen, indem die Vorhersagen verschiedener schwächerer Klassifikatoren kombiniert werden, um einen stärkeren Lernalgorithmus zu erzeugen, der die Genauigkeit des Ergebnisses verbessert.

Convolutional Neural Networks

Ein spezieller Typ von neuronalen Netzwerken, der für die Lösung von Problemen mit Bildern entwickelt wurde. CNNs bestehen aus mehreren Schichten von Neuronen, die miteinander verbunden werden. Jede Schicht nimmt ein anderes Merkmal des Bildes auf und kombiniert es mit Merkmalen aus früheren Schichten, um eine übergeordnete Darstellung des Bildes zu erstellen. CNNs eignen sich auch gut für Aufgaben der Bildklassifizierung.

Support-Vektor-Maschines

Nutzen Algorithmen, um ähnliche Zeichen zwischen den beiden verwendeten Eingabemustern in den Datenpunkten zu identifizieren. Sie können auch handgeschriebene Ziffern von 0 bis 9 klassifizieren.

Semi Incremental Recognition

Diese Methode ist ein zweistufiger Prozess zur Erkennung von Zeichen. Zunächst werden die Striche erkannt aus denen sich jedes Zeichen zusammensetzt, anschließend wird jeder Strich zur Identifizierung des Zeichens verwendet. Dieser Ansatz ist schneller und toleranter gegenüber Variationen der Strichreihenfolge. Zudem eignet sich das Verfahren auch besser für kursive Schriften.

Zoning

Diese Erkennungsmethode ermöglicht die Einschränkung auf bestimmte Wörter, Adressen und Daten, ohne andere Texte zu beeinträchtigen. Sobald die Zoneneinteilung aktiviert ist, wird das gewünschte Attribut nur innerhalb einer bestimmten Zone oder falls nicht angegeben, im gesamten Text erkannt. Dies kann in Sicherheitsaspekten nützlich sein und die Kontrolle über bestimmte Teile eines Dokuments ermöglichen. Sie können eine Linie um den Bereich zeichnen, der den zu erkennenden Text enthält. Die Software markiert diesen Bereich anschließend mit einer speziellen Farbe, damit er später bei der Überprüfung des Dokuments leicht zu erkennen ist.

Slope and Slant Correction

Die Methode korrigiert die Neigung der Buchstaben. Der Algorithmus verwendet eine Formel, um die Neigung jedes Buchstabens zu berechnen und sie anhand des Kontexts zu korrigieren. Diese Methode wird häufig zur Identifizierung von Buchstaben verwendet.

Line and Word Segmentation

Erkennt Zeilen, Buchstaben, Wörter und andere Symbole in einem gescannten Dokument. Diese Erkennung wird mit einer von drei Methoden durchgeführt. Der Brute-Force-Methode, der optimierungsbasierten Methode und der induktiven Lernmethode. Bei der Brute-Force-Methode werden alle möglichen Kombinationen von Zeilen- und Wortumbrüchen getestet. Sie ist rechenintensiv, garantiert aber, dass alle möglichen Lösungen gefunden werden, sofern sie existieren. Optimierungsbasierte Methoden verwenden Heuristiken, um Teilprobleme zu lösen, die dann zu einer Gesamtlösung kombiniert werden. Bei der induktiven Lernmethode werden maschinelle Lerntechniken eingesetzt, um aus Beispieldokumenten zu lernen und dieses Wissen dann auf neue, bisher unbekannte Dokumente anzuwenden.

Von diesen neun Methoden ist die Convolutional Neural Networks Methode (CNN), diejenige mit der besten Genauigkeit bei der Extraktion und Identifizierung von handgeschriebenen Dokumenten. Auch wenn die Handschrifterkennung viel schwieriger ist als die traditionelle OCR-Methode.

Der Prozess der optischen Zeichenerkennung

Die OCR-Technologie funktioniert,  indem sie ein Dokument oder ein Bild analysiert und die darin enthaltenen Zeichen extrahiert. Der gesamte OCR-Extraktionsprozess besteht aus drei Schritten, um jede Datenextraktion abzuschließen.

Die Vorverarbeitung besteht aus der Entfernung von Hintergrundrauschen oder Fremdinformationen aus einem Bild oder Dokument, die den OCR-Datenextraktionsprozess beeinträchtigen könnten. Dazu gehören deskewing, zoning, despeckling, binarization, line removal, character isolation, and script recognition.

  • Deskewing – richtet Bilder aus, die nicht korrekt gescannt wurden.
  • Zoning – teilt die Daten in verschiedene Bereiche wie Spalten und Überschriften auf.
  • Despeckling – entfernt Flecken in Dokumenten und Bildern und glättet deren Ränder.
  • Binarisation – wandelt Farben in Bildern in Schwarz und Weiß um, um Texte von ihrem Hintergrund zu trennen und Daten zu erkennen.
  • Line removal – löscht überflüssige Zeilen und Leerzeichen, um Daten zu optimieren.
  • Character Isolation- oft auch als Segmentierung bezeichnet, unterteilt Bildartefakte in verschiedene Zeichen.
  • Script recognition- erkennt verschiedene Schriften innerhalb eines Dokuments, um sicherzustellen, dass die richtigen Daten zum richtigen Zeitpunkt erfasst werden.

Nach der Vorverarbeitung des Bildes oder des Dokuments, wird es in eine OCR-Engine eingespeist, um den Zeichenerkennungsprozess zu starten.

Bei der Zeichenerkennung werden die Zeichen auf zwei Arten bewertet. Dies sind der Matrixabgleich und die Merkmalsextraktion.

  • Der Matrixabgleich ist eine Mustererkennung, bei der die Zeichenbilder mit gespeicherten Glyphen vergleichen werden. Diese Methode eignet sich am besten für Zeichen mit Standardschriftarten, die in der Regel nichts Besonderes sind.
  • Die Merkmalsextraktion identifiziert die Schleifen, Linien, Überschneidungen und Richtungen, die ein effizientes Zeichenerkennungssystem ermöglichen.

Der letzte Schritt der OCR-Datenextraktion wird als Nachbearbeitung bezeichnet. Sobald die Daten in diesem Schritt verarbeitet sind, erhöht sich der Genauigkeitsgrad durch Techniken wie Lexikon, natürliche Sprachverarbeitung (NLP) und Datenbankabfragen. Mit diesen Techniken wird sichergestellt, dass die Bilder verwendbar sind.

Anschließend werden die Ergebnisse in lesbare Formate für die Anwendungsnutzung, wie PDFs exportiert und an den Kunden ausgegeben.

Was ist OCR

Ein Erklärungsvideo von Eye on Tech

https://www.youtube.com/embed/Q5U_VEmcY-M

Wie wird die optische Zeichenerkennung genutzt?

OCR-Anwendungen werden in der Dokumentenverwaltung, der Dateneingabe und der Formularverarbeitung eingesetzt.

Die Dokumentenverwaltung ist eine der am häufigsten verwendeten Anwendungen. Sie nutzt OCR, um Papierdokumente in digitale Dateien umzuwandeln und daraus durchsuchbare Datenbanken zu erstellen, um schnell bestimmte Informationen zu finden.

Die Dateneingabe nutzt OCR, um Dateneingaben wie Namen und Adressen in Papierdokumenten zu speichern und diese in ein elektronisches Arbeitsblatt umzuwandeln.

Die Formularverarbeitung wird zur automatisierten Erfassung und Verarbeitung eingesetzt. Dies erfolgt meist in Unternehmen, die regelmäßig eine große Anzahl von Formularen erhalten.

OCR in verschiedenen Branchen eingesetzt

Unternehmen können OCR nutzen, um Daten für Dokumente wie Rechnungen, Quittungen und vieles mehr zu automatisieren. Dadurch können sie viel Zeit und Geld sparen und den Bedarf an manueller Dateneingabe verringern.

Regierung

Die Behörden verwenden OCR, um gescannte Dokumente wie eidesstattliche Erklärungen, Testamente, Urteile, Akten und andere juristische Dokumente in ein digitales Format zu konvertieren, damit sie gespeichert und abgerufen werden können. Diese Dokumente können auch digital durchsucht werden.

Gesundheitswesen

Gesundheitsdienstleister nutzen OCR, um manuelle Papierarbeit bei der Bearbeitung von Patientenakten und der Überprüfung von Versicherungsansprüchen und Zahlungsunterlagen zu reduzieren. Die gesamte Krankenakte eines Patienten einschließlich Tests, Röntgenaufnahmen, Diagnosen, Behandlungen und Krankheiten, wird mit Hilfe von OCR gescannt und gespeichert. Dies trägt zur Verbesserung der Patientenversorgung bei, indem es einen schnellen, einfachen und durchsuchbaren Zugang zu medizinischen Informationen ermöglicht.

Bildung

OCR kann verwendet werden, um Abschriften von Schülernoten zu verarbeiten und gescannte Lehrbücher in ein digitales Format umzuwandeln, damit sie für Schüler mit Behinderungen zugänglicher sind. Außerdem lassen sich mit OCR leicht durchsuchbare Datenbanken für Bildungsressourcen erstellen.

Logistik

Die Logistik ist eine hektische Branche. OCR kann Unternehmen in dieser Branche bei der Organisation helfen, indem sie den Überblick über T-Shirt-Etiketten, Quittungen, Rechnungen und anderen Dokumenten behält.

Bankwesen

Banken nutzen OCR zur Verarbeitung und Verwaltung von Schecks und zur Überprüfung von Dokumenten wie Versicherungen, Krediten, Überweisungen und anderen Online-Transaktionen. Diese Technologie hilft Betrug zu verhindern, indem sie die Echtheit von Dokumenten und Finanztransaktionen überprüft und gleichzeitig die Bearbeitungszeit verkürzt. Der häufigste OCR-Prozess im Bankwesen, ist die Validierung von Unterschriften, das Scannen von Handschriften und die Verrechnung von Schecks.

Musik

OCR kann Notenblätter scannen, um sie online verfügbar zu machen. Sie kann Noten in einen Ton umwandeln, der es einem Computer oder einem Handy ermöglicht, das Notenblatt zu lesen und abzuspielen.

Lieferketten

In anderen Branchen wie der Lebensmittel-, Getränke-, Kosmetik- und Pharmaindustrie ermöglicht das OCR-Verfahren die ordnungsgemäße Aufbewahrung von Medikamenten, Ausrüstung und anderen Verbrauchsgütern. Es ermöglicht dem Benutzer das Lesen von Chargencodes, Verfallsdaten und Seriennummern, um Produkte in allen Phasen ihres Verpackungszyklus zu verfolgen. Es kann sogar Fehler vergleichen und kennzeichnen, um sicherzustellen, dass ein Unternehmen den Artikel lokalisieren kann und dass der Artikel jederzeit den Gesetzen zur Sicherheit und dem Schutz gegen Fälschung entspricht.

Verschiedene Industrien

In anderen Unternehmen hilft OCR beim Sortieren von Post, bei der Überprüfung von Pässen, bei der Verarbeitung von Bestellungen, bei der Bearbeitung von Forderungen auf Kunden- und Verwaltungsebene und bei der Zusammenstellung von Leistungen und Anreizen für Mitarbeiter.

Was sind die Vorteile der optischen Zeichenerkennung?

Die Vorteile von OCR sind die automatische Texterkennung aus Bildern. Dies ist vorteilhaft für Aufgaben wie Dokumentenverwaltung, automatische Dateneingabe und Archivierung. Vielen Unternehmen hilft sie, ihre Prozesse zu digitalisieren, die manuelle Arbeit zu minimieren, die Produktivität zu steigern und die Arbeitskosten zu senken.

Die Fähigkeit, Daten zu erfassen und in maschinenlesbare Formate umzuwandeln, hilft Unternehmen bei der Indexierung und bietet auch Menschen mit Sehbehinderungen Zugang.

Was sind die Nachteile von OCR?

OCR ist komplex und in vielerlei Hinsicht eingeschränkt. Es kann zeitaufwendig werden und Schwierigkeiten bereiten, wenn unscharfe und qualitativ minderwertige Bilder oder Dokumente mit mehreren Seiten, mit viel Text oder komplizierten Designs und Layouts gescannt werden.

OCR ist auch für Privatpersonen und kleine Unternehmen recht kostspielig und nicht 100 % genau. Bei der Umwandlung eines gescannten Dokuments in eine digitale Datei kann die OCR-Software Daten verlieren oder falsch interpretieren. Außerdem müssen die gescannten Dokumente fast immer von Unreinheiten, Flecken und anderen Unvollkommenheiten befreit werden. Es unterstützt auch nicht alle Schriftarten, Sprachen und Texte in Bildern.

Die Geschichte der optischen Zeichenerkennung

Die OCR-Technologie wurde ursprünglich im 19. Jahrhundert entwickelt und diente dazu, Blinden das Lesen zu erleichtern. 1920 baute ein Erfinder namens Gustav Tauschek ein OCR-Lochkarten-Buchhaltungssystem. In den 1970er Jahren wurde die Technologie von dem amerikanischen Erfinder Ray Kurzweil wieder aufgegriffen, der das Unternehmen Kurzweil Computer Products Inc. gründete. Die Absicht dahinter war, Software zu entwickeln, die Bilder präzise in Text umwandeln kann. Mit diesem Unterfangen erfand Ray die Kurzweil Reading Machine, deren Algorithmus in der Lage war, praktisch jede Art von Textschrift zu erkennen.

In den 1980er Jahren verkaufte er seine Maschine an Xerox, die den Text laut vorlesen konnte, was heute als Text-to-Speech-Format bekannt ist. In den 1990er Jahren wurden historische Zeitungen mit OCR-Maschinen digitalisiert und bis heute verwenden wir OCR, indem wir Dokumente und Bilder in Echtzeit mit unseren Smartphones scannen.

Welche zukünftigen Entwicklungen gibt es für OCR?

Die OCR-Technologie wird ständig weiterentwickelt und verbessert. Künftige Entwicklungen sehen eine höhere Genauigkeit, schnellere Verarbeitungszeiten und die Fähigkeit von OCR vor, Texte in einer größeren Anzahl von Sprachen zu lesen.

Darüber hinaus gibt es für die OCR-Technologie Pläne, den menschlichen Verstand nachzuahmen. Im Allgemeinen basieren Algorithmen auf Mustern, um ihre Genauigkeit zu bestimmen. Viele hoffen, dass sie in Zukunft nicht mehr darauf angewiesen sind, da sie in der Lage sein werden, Text zu erkennen und selbst zu bestimmen, was er bedeutet.

Fazit

Fortschrittliche Technologien wie die optische Zeichenerkennung ermöglichen es jedem, Bilder und Dokumente in bearbeitbare, durchsuchbare und maschinenlesbare Texte umzuwandeln. Mit diesem Werkzeug lassen sich große Mengen an Dokumenten effektiv organisieren und produzieren, Fehler und Kosten vermeiden und die täglichen manuellen Aufgaben der Dateneingabe reduzieren.

Durch den Einsatz von OCR können Einzelpersonen und Unternehmen Daten und Dateien vergleichen und auf Verifizierung, Fehler oder Zugriffsinformationen prüfen. Diese Zugänglichkeit ermöglicht eine einfache erweiterte Analyse, so dass sie lernen, sich zu verbessern und schnellere Ergebnisse zu erzielen. Alles in allem war OCR – trotz einiger Fehler – der erste Schritt zur Umwandlung analoger in digitale Aufzeichnungen.