Benutzeroberfläche in natürlicher Sprache - Natural-language user interface

Die natürlichsprachige Benutzerschnittstelle ( LUI oder NLUI ) ist eine Art von Computer-Mensch-Schnittstelle, bei der linguistische Phänomene wie Verben, Phrasen und Klauseln als UI-Steuerelemente zum Erstellen, Auswählen und Ändern von Daten in Softwareanwendungen fungieren.

Beim Interface-Design sind natürlichsprachliche Interfaces wegen ihrer Geschwindigkeit und Benutzerfreundlichkeit gefragt, aber die meisten leiden unter den Herausforderungen, eine Vielzahl mehrdeutiger Eingaben zu verstehen . Natürlichsprachliche Schnittstellen sind ein aktives Studiengebiet im Bereich der Verarbeitung natürlicher Sprache und der Computerlinguistik . Eine intuitive allgemeinsprachliche Oberfläche ist eines der aktiven Ziele des Semantic Web .

Textschnittstellen sind in unterschiedlichem Maße "natürlich". Viele formale (unnatürliche) Programmiersprachen beinhalten Idiome der natürlichen menschlichen Sprache. Ebenso könnte eine traditionelle Schlüsselwortsuchmaschine als "flache" natürlichsprachliche Benutzeroberfläche beschrieben werden.

Überblick

In natürlicher Sprache würden Suchmaschinen theoretisch gezielt Antworten auf Nutzerfragen finden (im Gegensatz zu einer Stichwortsuche). Konfrontiert man beispielsweise mit einer Frage der Form „Welcher US- Bundesstaat hat die höchste Einkommensteuer ?“, ignorieren herkömmliche Suchmaschinen diese Frage und suchen stattdessen nach den Schlüsselwörtern „Staat“, „Einkommen“ und „Steuer“. Die Suche in natürlicher Sprache hingegen versucht, die Verarbeitung natürlicher Sprache zu verwenden, um die Natur der Frage zu verstehen und dann eine Teilmenge des Webs zu durchsuchen und zurückzugeben, die die Antwort auf die Frage enthält. Wenn es funktioniert, hätten die Ergebnisse aufgrund der eingeschlossenen Frage eine höhere Relevanz als die Ergebnisse einer Keyword-Suchmaschine.

Geschichte

Prototypen von Nl-Schnittstellen waren bereits Ende der sechziger und Anfang der siebziger Jahre erschienen.

  • SHRDLU , eine natürlichsprachige Schnittstelle, die Blöcke in einer virtuellen "Blockwelt" manipuliert
  • Lunar , eine natürlichsprachliche Schnittstelle zu einer Datenbank mit chemischen Analysen von Apollo-11-Mondgestein von William A. Woods .
  • Chat-80 wandelte englische Fragen in Prolog- Ausdrücke um, die mit der Prolog-Datenbank verglichen wurden. Der Code von Chat-80 wurde weit verbreitet und bildete die Grundlage für mehrere andere experimentelle Nl-Schnittstellen. Eine Online-Demo ist auf der LPA-Website verfügbar.
  • ELIZA , zwischen 1964 und 1966 am MIT von Joseph Weizenbaum geschrieben, ahmte einen Psychotherapeuten nach und wurde durch die Verarbeitung von Benutzerreaktionen auf Skripte betrieben. Das DOCTOR-Skript verwendete fast keine Informationen über menschliche Gedanken oder Emotionen und bot manchmal eine verblüffend menschenähnliche Interaktion. Eine Online-Demo ist auf der LPA-Website verfügbar.
  • Janus ist auch eines der wenigen Systeme, das zeitliche Fragen unterstützt.
  • Intellekt von Trinzic (entstanden durch den Zusammenschluss von AICorp und Aion).
  • BBN Sprachgebrauch gebaut auf Erfahrungen aus der Entwicklung der Rus und Irus Systeme.
  • IBM Sprachzugriff
  • Fragen und Antworten von Symantec .
  • Datatalker von Natural Language Inc.
  • Loqui von BIM Systems.
  • Englischer Assistent von Linguistic Technology Corporation .

Herausforderungen

Natürlichsprachliche Schnittstellen haben in der Vergangenheit dazu geführt, dass Benutzer den Computer vermenschlichen oder zumindest Maschinen mehr Intelligenz zuschreiben, als gerechtfertigt ist. Auf Seiten der Benutzer hat dies zu unrealistischen Erwartungen an die Fähigkeiten des Systems geführt. Solche Erwartungen werden es erschweren, die Einschränkungen des Systems zu erlernen, wenn Benutzer ihm zu viele Fähigkeiten zuschreiben, und werden letztendlich zu Enttäuschungen führen, wenn das System nicht die erwartete Leistung erbringt, wie es im KI-Winter der 1970er und 80er Jahre der Fall war .

Ein 1995 erschienenes Papier mit dem Titel „Natürliche Sprachschnittstellen zu Datenbanken – Eine Einführung“ beschreibt einige Herausforderungen:

Modifikator-Aufsatz
Die Aufforderung „Alle Mitarbeiter im Unternehmen mit Führerschein auflisten“ ist mehrdeutig, es sei denn, Sie wissen, dass Unternehmen keinen Führerschein haben können.
Konjunktion und Disjunktion
"Alle Bewerber auflisten, die in Kalifornien und Arizona leben" ist mehrdeutig, es sei denn, Sie wissen, dass eine Person nicht an zwei Orten gleichzeitig leben kann.
Anaphora-Auflösung
Auflösen, was ein Benutzer mit „er“, „sie“ oder „es“ meint, in einer selbstreferenziellen Abfrage.

Andere allgemein zu berücksichtigende Ziele sind die Geschwindigkeit und Effizienz der Schnittstelle. Bei allen Algorithmen sind diese beiden Punkte der Hauptpunkt, der bestimmt, ob einige Methoden besser sind als andere und daher auf dem Markt erfolgreicher sind. Darüber hinaus erfordert die Lokalisierung über mehrere Sprachen hinweg zusätzliche Überlegungen – dies basiert auf unterschiedlichen Satzstrukturen und Sprachsyntaxvariationen zwischen den meisten Sprachen.

Was die verwendeten Methoden betrifft, besteht schließlich das Hauptproblem, das gelöst werden muss, einen allgemeinen Algorithmus zu schaffen, der das gesamte Spektrum unterschiedlicher Stimmen erkennen kann, ohne Nationalität, Geschlecht oder Alter zu berücksichtigen. Die signifikanten Unterschiede zwischen den extrahierten Merkmalen – selbst von Sprechern, die dasselbe Wort oder denselben Satz sagen – müssen erfolgreich überwunden werden.

Verwendungen und Anwendungen

Die natürlichsprachliche Schnittstelle führt zu Technologien, die für viele verschiedene Anwendungen verwendet werden.

Einige der wichtigsten Verwendungen sind:

  • Diktat ist heute die häufigste Verwendung für automatisierte Spracherkennungssysteme (ASR). Dazu gehören medizinische Transkriptionen, juristische und geschäftliche Diktate und allgemeine Textverarbeitung. In einigen Fällen werden spezielle Vokabulare verwendet, um die Genauigkeit des Systems zu erhöhen.
  • Befehls- und Kontrollsysteme , ASR-Systeme, die dazu bestimmt sind, Funktionen und Aktionen auf dem System auszuführen, werden als Befehls- und Kontrollsysteme definiert. Äußerungen wie "Open Netscape" und "Start a new xterm" werden genau das tun.
  • Telefonie , einige PBX/ Voice-Mail- Systeme ermöglichen Anrufern, Befehle zu sprechen, anstatt Tasten zu drücken, um bestimmte Töne zu senden.
  • Wearables , da die Eingaben für tragbare Geräte begrenzt sind, ist das Sprechen eine natürliche Möglichkeit.
  • Medizinisch, Behinderungen , viele Menschen haben aufgrund von körperlichen Einschränkungen wie Verletzungen durch wiederholte Belastung (RSI), Muskeldystrophie und vielen anderen Schwierigkeiten beim Tippen. Menschen mit Hörproblemen könnten beispielsweise ein an ihr Telefon angeschlossenes System verwenden, um die Sprache eines Anrufers in Text umzuwandeln.
  • Eingebettete Anwendungen , einige neue Mobiltelefone enthalten C&C-Spracherkennung, die Äußerungen wie "Call Home" zulassen. Dies könnte ein wichtiger Faktor für die Zukunft der automatischen Spracherkennung und von Linux sein .
  • Softwareentwicklung : Eine integrierte Entwicklungsumgebung kann natürlichsprachliche Schnittstellen einbetten, um Entwicklern zu helfen.

Im Folgenden sind einige der Anwendungen benannt und definiert, die die Erkennung natürlicher Sprache verwenden und somit über integrierte Dienstprogramme verfügen, die oben aufgeführt sind.

Allgegenwart

Ubiquity, ein Add-on für Mozilla Firefox , ist eine Sammlung von schnellen und einfachen Befehlen, die von natürlicher Sprache abgeleitet werden, die als Mashups von Webdiensten fungieren und es Benutzern ermöglichen, Informationen abzurufen und sie mit aktuellen und anderen Webseiten in Verbindung zu bringen.

Wolfram Alpha

Wolfram Alpha ist ein Online-Dienst, der sachliche Anfragen direkt beantwortet, indem er die Antwort aus strukturierten Daten berechnet, anstatt wie eine Suchmaschine eine Liste von Dokumenten oder Webseiten bereitzustellen, die die Antwort enthalten könnten . Es wurde im März 2009 von Stephen Wolfram angekündigt und am 15. Mai 2009 der Öffentlichkeit zugänglich gemacht.

Sirius

Siri ist eine intelligente persönliche Assistentenanwendung , die in das Betriebssystem iOS integriert ist . Die Anwendung verwendet natürliche Sprachverarbeitung , um Fragen zu beantworten und Empfehlungen auszusprechen.

Zu den Marketingansprüchen von Siri gehört, dass es sich im Laufe der Zeit an die individuellen Vorlieben eines Benutzers anpasst und die Ergebnisse personalisiert und Aufgaben wie die Reservierung von Abendessen beim Versuch, ein Taxi zu nehmen, ausführt.

Andere

  • Ask.com – Die ursprüngliche Idee hinter Ask Jeeves (Ask.com) war die traditionelle Stichwortsuche mit der Möglichkeit, Antworten auf Fragen in alltäglicher, natürlicher Sprache zu erhalten. Das aktuelle Ask.com unterstützt dies immer noch mit zusätzlicher Unterstützung für Mathematik-, Wörterbuch- und Konvertierungsfragen.
  • Braina – Braina ist eine natürliche Sprachschnittstelle für Windows-Betriebssysteme , die es ermöglicht, englischsprachige Sätze einzugeben oder zu sprechen, um eine bestimmte Aktion auszuführen oder Informationen zu finden.
Screenshot der klassischen Benutzeroberfläche von GNOME DO.
  • GNOME Do – Ermöglicht das schnelle Auffinden verschiedener Artefakte der GNOME-Umgebung (Anwendungen, Evolution- und Pidgin-Kontakte, Firefox-Lesezeichen, Rhythmbox-Künstler und -Alben usw.) und Ausführen der grundlegenden Aktionen darauf (Starten, Öffnen, E-Mail, Chat, Wiedergabe, etc.).
  • hakia – hakia war eine Internetsuchmaschine. Das Unternehmen erfand eine alternative neue Infrastruktur zur Indexierung, die den SemanticRank-Algorithmus nutzte, einen Lösungsmix aus den Disziplinen ontologische Semantik, Fuzzy-Logik, Computerlinguistik und Mathematik. hakia wurde 2014 geschlossen.
  • Lexxe – Lexxe war eine Internetsuchmaschine, die die Verarbeitung natürlicher Sprache für Abfragen verwendet (semantische Suche). Die Suche kann mit Schlüsselwörtern, Phrasen und Fragen erfolgen, wie zum Beispiel "Wie alt ist Wikipedia?" Lexxe hat seine Suchmaschinendienste im Jahr 2015 eingestellt.
  • Pikimal – Pikimal verwendet natürliche Sprache, die an die Benutzerpräferenz gebunden ist, um Suchempfehlungen nach Vorlage zu geben. Pikimal wurde 2015 geschlossen.
  • Powerset – Am 11. Mai 2008 stellte das Unternehmen ein Tool vor, mit dem eine feste Untermenge von Wikipedia mithilfe von Konversationsphrasen anstelle von Schlüsselwörtern durchsucht werden kann . Am 1. Juli 2008 wurde es von Microsoft gekauft .
  • Q-go – Die Q-go-Technologie liefert den Nutzern relevante Antworten auf Anfragen auf der Internet-Website oder dem Unternehmens-Intranet eines Unternehmens, die in natürlichen Sätzen oder Schlüsselworteingaben formuliert werden. Q-go wurde 2011 von RightNow Technologies übernommen.
  • Yebol – Yebol war eine vertikale „Entscheidungs“-Suchmaschine, die eine wissensbasierte, semantische Suchplattform entwickelt hatte. Yebols Algorithmen mit künstlicher Intelligenz, die mit menschlicher Intelligenz ausgestattet sind, gruppierten und kategorisierten automatisch Suchergebnisse, Websites, Seiten und Inhalte, die in einem visuell indizierten Format präsentiert wurden, das besser auf die ursprüngliche menschliche Absicht ausgerichtet ist. Yebol verwendete Assoziations-, Ranking- und Clustering-Algorithmen, um verwandte Schlüsselwörter oder Webseiten zu analysieren. Yebol integrierte natürliche Sprachverarbeitung, metasynthetisch konstruierte offene komplexe Systeme und maschinelle Algorithmen mit menschlichem Wissen für jede Abfrage, um ein Webverzeichnis zu erstellen, das tatsächlich "lernt", indem Korrelations-, Cluster- und Klassifizierungsalgorithmen verwendet werden, um die Wissensabfrage automatisch zu generieren beibehalten und nach vorne regeneriert.

Siehe auch

Verweise