Handschrifterkennung - Handwriting recognition

Unterschrift des Country-Stars Tex Williams.

Die Handschrifterkennung ( HWR ), auch bekannt als Handwritten Texterkennung ( HTR ) ist die Fähigkeit eines Computers verständlich zu empfangen und zu interpretieren handgeschriebene Eingaben von Quellen wie Papierdokumente, Fotografien , Touch-Screens und anderen Geräte. Das Bild des geschriebenen Textes kann "offline" von einem Blatt Papier durch optische Abtastung ( optische Zeichenerkennung ) oder intelligente Worterkennung erfasst werden . Alternativ können die Bewegungen der Stiftspitze "online" erfasst werden, beispielsweise durch eine stiftbasierte Computerbildschirmoberfläche, eine im Allgemeinen einfachere Aufgabe, da mehr Hinweise verfügbar sind. Ein Handschrifterkennungssystem übernimmt die Formatierung, führt die korrekte Segmentierung in Zeichen durch und findet die plausibelsten Wörter.

Offline-Erkennung

Die Offline-Handschrifterkennung umfasst die automatische Umwandlung von Text in einem Bild in Buchstabencodes, die in Computer- und Textverarbeitungsanwendungen verwendet werden können. Die mit diesem Formular erhaltenen Daten werden als statische Darstellung der Handschrift betrachtet. Die Offline-Handschrifterkennung ist vergleichsweise schwierig, da verschiedene Personen unterschiedliche Handschriftstile haben. Und heute konzentrieren sich OCR-Engines hauptsächlich auf maschinengedruckten Text und ICR für handgedruckten (in Großbuchstaben geschriebenen) Text.

Traditionelle Techniken

Zeichenextraktion

Die Offline-Zeichenerkennung umfasst häufig das Scannen eines Formulars oder Dokuments. Dies bedeutet, dass die einzelnen im gescannten Bild enthaltenen Zeichen extrahiert werden müssen. Es gibt Tools, die diesen Schritt ausführen können. In diesem Schritt gibt es jedoch mehrere häufige Unvollkommenheiten. Am häufigsten werden verbundene Zeichen als einzelnes Unterbild zurückgegeben, das beide Zeichen enthält. Dies verursacht ein großes Problem in der Erkennungsphase. Dennoch sind viele Algorithmen verfügbar, die das Risiko verbundener Charaktere reduzieren.

Zeichenerkennung

Nachdem die Extraktion einzelner Zeichen erfolgt ist, wird eine Erkennungsmaschine verwendet, um das entsprechende Computerzeichen zu identifizieren. Derzeit stehen mehrere verschiedene Erkennungstechniken zur Verfügung.

Merkmalsextraktion

Die Merkmalsextraktion funktioniert auf ähnliche Weise wie die Erkennung von neuronalen Netzwerken. Programmierer müssen jedoch die Eigenschaften, die sie für wichtig halten, manuell bestimmen. Dieser Ansatz gibt dem Erkenner mehr Kontrolle über die bei der Identifizierung verwendeten Eigenschaften. Jedes System, das diesen Ansatz verwendet, benötigt jedoch wesentlich mehr Entwicklungszeit als ein neuronales Netz, da die Eigenschaften nicht automatisch gelernt werden.

Moderne Techniken

Während sich traditionelle Techniken auf die Segmentierung einzelner Zeichen zur Erkennung konzentrieren, konzentrieren sich moderne Techniken darauf, alle Zeichen in einer segmentierten Textzeile zu erkennen. Sie konzentrieren sich insbesondere auf Techniken des maschinellen Lernens , die in der Lage sind, visuelle Funktionen zu erlernen und das bisher verwendete einschränkende Feature-Engineering zu vermeiden. Verfahren nach dem Stand der Technik verwenden Faltungsnetzwerke , um visuelle Merkmale über mehrere überlappende Fenster eines Textzeilenbildes zu extrahieren, die ein rekurrentes neuronales Netzwerk verwendet, um Zeichenwahrscheinlichkeiten zu erzeugen.

Online-Anerkennung

Die Online-Handschrifterkennung beinhaltet die automatische Konvertierung von Text, wie er auf einem speziellen Digitizer oder PDA geschrieben wird , wobei ein Sensor die Bewegungen der Stiftspitze sowie das Umschalten des Stifts nach oben/unten aufnimmt. Diese Art von Daten wird als digitale Tinte bezeichnet und kann als digitale Darstellung der Handschrift betrachtet werden. Das erhaltene Signal wird in Buchstabencodes umgewandelt, die in Computer- und Textverarbeitungsanwendungen verwendet werden können.

Zu den Elementen einer Online-Schnittstelle zur Handschrifterkennung gehören in der Regel:

ein Stift oder Stylus, mit dem der Benutzer schreiben kann.
eine berührungsempfindliche Oberfläche, die in ein Ausgabedisplay integriert sein oder diesem benachbart sein kann.
eine Softwareanwendung, die die Bewegungen des Stifts über die Schreibfläche interpretiert und die resultierenden Striche in digitalen Text übersetzt.

Der Prozess der Online-Handschrifterkennung lässt sich in einige allgemeine Schritte unterteilen:

Vorverarbeitung,
Merkmalsextraktion und
Einstufung

Der Zweck der Vorverarbeitung besteht darin, irrelevante Informationen in den Eingabedaten zu verwerfen, die die Erkennung negativ beeinflussen können. Dies betrifft Geschwindigkeit und Genauigkeit. Die Vorverarbeitung besteht normalerweise aus Binarisierung, Normalisierung, Abtastung, Glättung und Rauschunterdrückung. Der zweite Schritt ist die Merkmalsextraktion. Aus dem von den Vorverarbeitungsalgorithmen empfangenen zwei- oder höherdimensionalen Vektorfeld werden höherdimensionale Daten extrahiert. Der Zweck dieses Schrittes besteht darin, wichtige Informationen für das Erkennungsmodell hervorzuheben. Diese Daten können Informationen wie Stiftdruck, Geschwindigkeit oder die Änderung der Schreibrichtung enthalten. Der letzte große Schritt ist die Klassifizierung. In diesem Schritt werden verschiedene Modelle verwendet, um die extrahierten Merkmale unterschiedlichen Klassen zuzuordnen und so die Zeichen oder Wörter zu identifizieren, die die Merkmale darstellen.

Hardware

Kommerzielle Produkte mit Handschrifterkennung als Ersatz für die Tastatureingabe wurden in den frühen 1980er Jahren eingeführt. Beispiele hierfür sind handschriftliche Terminals wie das Pencept Penpad und das Inforite-Point-of-Sale-Terminal. Mit dem Aufkommen des großen Verbrauchermarktes für Personalcomputer wurden mehrere kommerzielle Produkte eingeführt, um die Tastatur und die Maus auf einem Personalcomputer durch ein einzelnes Zeige-/Handschriftsystem zu ersetzen, wie beispielsweise die von Pencept, CIC und anderen. Der erste kommerziell erhältliche tragbare Computer vom Tablet-Typ war das GRiDPad von GRiD Systems , das im September 1989 veröffentlicht wurde. Sein Betriebssystem basierte auf MS-DOS .

In den frühen 1990er Jahren, Hardware - Hersteller einschließlich NCR , IBM und EO veröffentlicht Tablet - Computer des Laufes PenPoint - Betriebssystemes entwickelt von GO Corp. . PenPoint verwendete durchgehend Handschrifterkennung und Gesten und stellte die Funktionen für Software von Drittanbietern zur Verfügung. Der Tablet-Computer von IBM war der erste, der den Namen ThinkPad verwendet und die Handschrifterkennung von IBM verwendet. Dieses Erkennungssystem wurde später auf Microsoft Windows für Pen Computing und IBMs Pen für OS/2 portiert . Keines davon war kommerziell erfolgreich.

Fortschritte in der Elektronik ermöglichten es, dass die für die Handschrifterkennung erforderliche Rechenleistung in einen kleineren Formfaktor als Tablet-Computer passt, und die Handschrifterkennung wird häufig als Eingabemethode für tragbare PDAs verwendet . Der erste PDA, der schriftliche Eingaben bereitstellte, war der Apple Newton , der der Öffentlichkeit den Vorteil einer optimierten Benutzeroberfläche bot. Allerdings war das Gerät aufgrund der Unzuverlässigkeit der Software, die versuchte, die Schreibmuster eines Benutzers zu lernen, kein kommerzieller Erfolg. Zum Zeitpunkt der Veröffentlichung des Newton OS 2.0, in dem die Handschrifterkennung stark verbessert wurde, einschließlich einzigartiger Funktionen, die in aktuellen Erkennungssystemen noch nicht zu finden sind, wie z. B. modale Fehlerkorrektur, war der erste Eindruck weitgehend negativ. Nach Abkündigung von Apple Newton wurde die Funktion in Mac OS X 10.2 und später als Inkwell integriert .

Später brachte Palm eine erfolgreiche Serie von PDAs auf den Markt, die auf dem Graffiti- Erkennungssystem basieren . Graffiti verbesserte die Benutzerfreundlichkeit, indem für jedes Zeichen ein Satz von "Unistrokes" oder Einstrichformen definiert wurde. Dies schränkte die Möglichkeit einer fehlerhaften Eingabe ein, obwohl das Auswendiglernen der Strichmuster die Lernkurve für den Benutzer erhöhte. Es wurde festgestellt, dass die Graffiti-Handschrifterkennung ein Patent von Xerox verletzt, und Palm ersetzte Graffiti durch eine lizenzierte Version der CIC-Handschrifterkennung, die zwar auch Unistroke-Formulare unterstützte, aber vor dem Xerox-Patent stand. Die gerichtliche Feststellung der Verletzung wurde in der Berufung aufgehoben und in einer späteren Berufung wieder aufgehoben. Über dieses und weitere Patente haben die Beteiligten anschließend einen Vergleich ausgehandelt.

Ein Tablet-PC ist ein Notebook-Computer mit einem Digitalisiertablett und einem Stift, der es einem Benutzer ermöglicht, Text auf dem Bildschirm des Geräts von Hand zu schreiben. Das Betriebssystem erkennt die Handschrift und wandelt sie in Text um. Windows Vista und Windows 7 enthalten Personalisierungsfunktionen, die die Schreibmuster oder das Vokabular eines Benutzers für Englisch, Japanisch, traditionelles Chinesisch, vereinfachtes Chinesisch und Koreanisch lernen. Die Funktionen umfassen einen "Personalisierungsassistenten", der nach Mustern der Handschrift eines Benutzers fragt und diese verwendet, um das System für eine Erkennung mit höherer Genauigkeit neu zu trainieren. Dieses System unterscheidet sich von dem weniger fortschrittlichen Handschrifterkennungssystem, das in seinem Windows Mobile- Betriebssystem für PDAs verwendet wird.

Obwohl die Handschrifterkennung eine Eingabeform ist, an die sich die Öffentlichkeit gewöhnt hat, hat sie weder in Desktop-Computern noch in Laptops eine weit verbreitete Verwendung erreicht. Es ist immer noch allgemein anerkannt, dass Tastatureingaben sowohl schneller als auch zuverlässiger sind. Seit 2006 bieten viele PDAs Handschrifteingaben an und akzeptieren manchmal sogar natürliche Kursivschrift, aber Genauigkeit ist immer noch ein Problem, und einige Leute finden selbst eine einfache Bildschirmtastatur noch effizienter.

Software

Frühe Software konnte gedruckte Handschriften verstehen, bei denen die Zeichen getrennt waren; jedoch stellte kursive Handschrift mit verbundenen Zeichen das Paradox von Sayre dar , eine Schwierigkeit, die Zeichensegmentierung mit einbezieht. 1962 schrieb Shelia Guberman , damals in Moskau, das erste angewandte Mustererkennungsprogramm. Kommerzielle Beispiele kamen von Unternehmen wie Communications Intelligence Corporation und IBM.

In den frühen 1990er Jahren entwickelten zwei Unternehmen – ParaGraph International und Lexicus – Systeme, die die kursive Handschrifterkennung verstehen konnten. ParaGraph hat seinen Sitz in Russland und wurde vom Informatiker Stepan Pachikov gegründet, während Lexicus von Ronjon Nag und Chris Kortge gegründet wurde, die Studenten an der Stanford University waren. Das ParaGraph CalliGrapher-System wurde in den Apple Newton-Systemen eingesetzt, und das Lexicus Longhand-System wurde für das PenPoint- und Windows-Betriebssystem kommerziell verfügbar gemacht. Lexicus wurde 1993 von Motorola übernommen und entwickelte für Motorola chinesische Handschrifterkennung und prädiktive Textsysteme . ParaGraph wurde 1997 von SGI übernommen und sein Handschrifterkennungsteam bildete eine P&I-Abteilung, die später von SGI von Vadem übernommen wurde. Microsoft hat die CalliGrapher-Handschrifterkennung und andere von P&I entwickelte digitale Tintentechnologien 1999 von Vadem übernommen.

Wolfram Mathematica (8.0 oder höher) bietet auch eine Handschrift- oder Texterkennungsfunktion TextRecognize.

Forschung

Methode zur Nutzung von Kontextinformationen im ersten von Sargur Srihari und Jonathan Hull . entwickelten handschriftlichen Adressinterpretationssystem

Die Handschrifterkennung wird von einer aktiven Gemeinschaft von Akademikern untersucht. Die größten Konferenzen zur Handschrifterkennung sind die International Conference on Frontiers in Handwriting Recognition (ICFHR) in geraden Jahren und die International Conference on Document Analysis and Recognition (ICDAR) in ungeraden Jahren. Beide Konferenzen werden von IEEE und IAPR unterstützt . 2021 werden die ICDAR-Procedures von LNCS , Springer veröffentlicht.

Aktive Forschungsbereiche sind:

Online-Anerkennung
Offline-Erkennung
Signaturprüfung
Interpretation der Postanschrift
Bank-Scheck-Verarbeitung
Autorenerkennung

Ergebnisse seit 2009

Seit 2009 haben die in der Forschungsgruppe von Jürgen Schmidhuber am Swiss AI Lab IDSIA entwickelten rekurrenten neuronalen Netze und tiefen Feedforward neuronalen Netze mehrere internationale Handschriftwettbewerbe gewonnen. Insbesondere das bidirektionale und multidimensionale Lange Kurzzeitgedächtnis (LSTM) von Alex Graves et al. gewann bei der International Conference on Document Analysis and Recognition (ICDAR) 2009 drei Wettbewerbe in Connected Handschrifterkennung, ohne Vorkenntnisse in den drei verschiedenen zu erlernenden Sprachen (Französisch, Arabisch, Persisch ). Neueste GPU- basierte Deep-Learning- Methoden für Feedforward-Netzwerke von Dan Ciresan und Kollegen von IDSIA gewannen den ICDAR 2011 Offline-Wettbewerb zur chinesischen Handschrifterkennung; ihre neuronalen Netze waren auch die ersten künstlichen Mustererkenner, die beim berühmten MNIST- Problem mit handgeschriebenen Ziffern von Yann LeCun und Kollegen an der NYU eine menschliche Wettbewerbsleistung erreichten .

Siehe auch

Listen

Verweise

Externe Links

Languages

In other projects