Sprachmodell -Language model

Ein Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Wortfolgen. Bei einer solchen Sequenz der Länge $m$ weist ein Sprachmodell der gesamten Sequenz eine Wahrscheinlichkeit zu. Sprachmodelle erzeugen Wahrscheinlichkeiten durch Training auf Textkorpora in einer oder mehreren Sprachen. Angesichts der Tatsache, dass Sprachen verwendet werden können, um eine unendliche Vielfalt gültiger Sätze auszudrücken (die Eigenschaft der digitalen Unendlichkeit ), steht die Sprachmodellierung vor dem Problem, linguistisch gültigen Folgen Wahrscheinlichkeiten ungleich Null zuzuweisen, die in den Trainingsdaten möglicherweise nie angetroffen werden. Um dieses Problem zu überwinden, wurden mehrere Modellierungsansätze entwickelt, wie z. B. die Anwendung der Markov-Annahme $P(w_{1},\ldots,w_{m})$ oder unter Verwendung neuronaler Architekturen wie rekurrenter neuronaler Netze oder Transformatoren .

Sprachmodelle sind für eine Vielzahl von Problemen in der Computerlinguistik nützlich ; von anfänglichen Anwendungen in der Spracherkennung , um sicherzustellen, dass unsinnige (d. h. wenig wahrscheinliche ) Wortsequenzen nicht vorhergesagt werden, bis hin zur breiteren Verwendung in der maschinellen Übersetzung (z . Sprachmarkierung , Parsing , optische Zeichenerkennung , Handschrifterkennung , Grammatik-Induktion , Informationsabruf und andere Anwendungen.

Sprachmodelle werden beim Informationsabruf im Abfragewahrscheinlichkeitsmodell verwendet . Dort wird jedem Dokument in einer Sammlung ein separates Sprachmodell zugeordnet . Dokumente werden basierend auf der Wahrscheinlichkeit der Abfrage Q im Sprachmodell des Dokuments eingestuft : . Üblicherweise wird für diesen Zweck das Unigram- Sprachmodell verwendet. $M_{d}$ $P(Q\mid M_{d})$

Modelltypen

Unigramm

Ein Unigrammmodell kann als Kombination mehrerer endlicher Automaten mit einem Zustand behandelt werden . Es geht davon aus, dass die Wahrscheinlichkeiten von Tokens in einer Folge unabhängig sind, z. B.:

P_{\text{uni}}(t_{1}t_{2}t_{3})=P(t_{1})P(t_{2})P(t_{3}).

In diesem Modell hängt die Wahrscheinlichkeit jedes Wortes nur von der eigenen Wahrscheinlichkeit dieses Wortes im Dokument ab, also haben wir nur endliche Automaten mit einem Zustand als Einheiten. Der Automat selbst hat eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular des Modells, die sich zu 1 summiert. Das Folgende ist eine Illustration eines Unigrammmodells eines Dokuments.

Bedingungen	Wahrscheinlichkeit in doc
a	0,1
Welt	0,2
Likes	0,05
wir	0,05
Teilen	0,3
...	...

\sum _{\text{Term im Dokument}}P({\text{Term}})=1

Die für eine bestimmte Abfrage generierte Wahrscheinlichkeit wird berechnet als

P({\text{query}})=\prod _{\text{Term in Abfrage}}P({\text{Term}})

Verschiedene Dokumente haben Unigramm-Modelle mit unterschiedlichen Trefferwahrscheinlichkeiten von Wörtern darin. Die Wahrscheinlichkeitsverteilungen aus verschiedenen Dokumenten werden verwendet, um Trefferwahrscheinlichkeiten für jede Abfrage zu generieren. Dokumente können für eine Abfrage nach den Wahrscheinlichkeiten geordnet werden. Beispiel für Unigrammmodelle zweier Dokumente:

Bedingungen	Wahrscheinlichkeit in Doc1	Wahrscheinlichkeit in Doc2
a	0,1	0,3
Welt	0,2	0,1
Likes	0,05	0,03
wir	0,05	0,02
Teilen	0,3	0,2
...	...	...

In Informationsabrufkontexten werden Unigramm-Sprachmodelle häufig geglättet, um Fälle zu vermeiden, in denen P (Term) = 0 ist. Ein üblicher Ansatz besteht darin, ein Maximum-Likelihood-Modell für die gesamte Sammlung zu generieren und das Sammlungsmodell linear mit einem Maximum-Likelihood-Modell für zu interpolieren jedes Dokument, um das Modell zu glätten.

n-Gramm

In einem n - Gramm-Modell wird die Wahrscheinlichkeit, den Satz zu beobachten, angenähert als $P(w_{1},\ldots,w_{m})$ $w_{1},\ldots,w_{m}$

P(w_{1},\ldots ,w_{m})=\prod _{i=1}^{m}P(w_{i}\mid w_{1},\ldots ,w_{i -1})\approx \prod _{i=2}^{m}P(w_{i}\mid w_{i-(n-1)},\ldots ,w_{i-1})

Es wird angenommen, dass die Wahrscheinlichkeit, das i ^-te Wort w _i in der Kontextgeschichte der vorhergehenden i − 1 Wörter zu beobachten, angenähert werden kann durch die Wahrscheinlichkeit, es in der verkürzten Kontextgeschichte der vorhergehenden n − 1 Wörter zu beobachten ( n ^-te Ordnung Markov-Eigenschaft ). Zur Verdeutlichung haben wir für n=3 und i=2 . $P(w_{i}\mid w_{i-(n-1)},\ldots ,w_{i-1})=P(w_{2}\mid w_{1})$

Die bedingte Wahrscheinlichkeit kann aus n -Gramm-Modellhäufigkeitszählungen berechnet werden:

P(w_{i}\mid w_{i-(n-1)},\ldots ,w_{i-1})={\frac {\mathrm {count} (w_{i-(n- 1)},\ldots,w_{i-1},w_{i})}{\mathrm{Anzahl}(w_{i-(n-1)},\ldots,w_{i-1})}}

Die Begriffe Bigramm- und Trigramm -Sprachmodelle bezeichnen n -Gramm-Modelle mit n = 2 bzw. n = 3.

Typischerweise werden die n -Gramm-Modellwahrscheinlichkeiten nicht direkt von Häufigkeitszählungen abgeleitet, da Modelle, die auf diese Weise abgeleitet wurden, schwerwiegende Probleme haben, wenn sie mit irgendwelchen n -Grammen konfrontiert werden, die vorher nicht explizit gesehen wurden. Stattdessen ist eine Art Glättung erforderlich, wobei ein Teil der gesamten Wahrscheinlichkeitsmasse unsichtbaren Wörtern oder n -Grammen zugewiesen wird. Es werden verschiedene Methoden verwendet, von der einfachen "Add-One"-Glättung (Zuweisung einer Zählung von 1 zu unsichtbaren n -Grammen als nicht informativer Prior ) bis hin zu anspruchsvolleren Modellen wie Good-Turing-Diskontierung oder Backoff -Modellen .

Bidirektional

Bidirektionale Repräsentationen bedingen sowohl Prä- als auch Postkontext (z. B. Wörter) in allen Schichten.

Beispiel

In einem Bigramm-Sprachmodell ( n = 2) wird die Wahrscheinlichkeit des Satzes I saw the red house angenähert als

P({\text{I, sah, das, rote, Haus}})\approx P({\text{I}}\mid \langle s\rangle )P({\text{saw}}\ mid {\text{I}})P({\text{the}}\mid {\text{saw}})P({\text{red}}\mid {\text{the}})P({ \text{Haus}}\mid {\text{rot}})P(\langle /s\rangle \mid {\text{Haus}})

wohingegen in einem Trigramm -Sprachmodell ( n = 3) die Annäherung ist

P({\text{I, saw, the, red, house}})\approx P({\text{I}}\mid \langle s\rangle ,\langle s\rangle )P({\ text{saw}}\mid \langle s\rangle ,I)P({\text{the}}\mid {\text{I, saw}})P({\text{red}}\mid {\text {saw, the}})P({\text{house}}\mid {\text{the, red}})P(\langle /s\rangle \mid {\text{red, house}})

Beachten Sie, dass der Kontext der ersten n – 1 n -Gramme mit Satzanfangsmarkierungen gefüllt ist, die normalerweise mit <s> bezeichnet werden.

Außerdem wäre ohne eine Satzende-Markierung die Wahrscheinlichkeit einer ungrammatischen Folge *Ich sah das immer höher als die des längeren Satzes Ich sah das rote Haus.

Exponentiell

Maximale Entropie -Sprachmodelle codieren die Beziehung zwischen einem Wort und der N-Gramm-Historie unter Verwendung von Merkmalsfunktionen. Die Gleichung ist

P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1}) )}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))

wobei die Partitionsfunktion , der Parametervektor und die Merkmalsfunktion ist. Im einfachsten Fall ist die Merkmalsfunktion nur ein Indikator für das Vorhandensein eines bestimmten N-Gramms. Es ist hilfreich, eine vorherige oder irgendeine Form der Regularisierung zu verwenden. $Z(w_{1},\ldots,w_{m-1})$ $ein$ $f(w_{1},\ldots,w_{m})$ $ein$

Das log-bilineare Modell ist ein weiteres Beispiel für ein exponentielles Sprachmodell.

Neurales Netzwerk

Neuronale Sprachmodelle (oder Continuous-Space-Sprachmodelle ) verwenden kontinuierliche Darstellungen oder Einbettungen von Wörtern , um ihre Vorhersagen zu treffen. Diese Modelle verwenden neuronale Netze .

Kontinuierliche Raumeinbettungen helfen, den Fluch der Dimensionalität in der Sprachmodellierung zu mildern: Wenn Sprachmodelle auf immer größere Texte trainiert werden, nimmt die Anzahl der eindeutigen Wörter (das Vokabular) zu. Die Anzahl möglicher Wortfolgen steigt exponentiell mit der Größe des Vokabulars, was aufgrund der exponentiell vielen Folgen ein Datensparsitätsproblem verursacht. Daher werden Statistiken benötigt, um Wahrscheinlichkeiten richtig abzuschätzen. Neuronale Netze vermeiden dieses Problem, indem sie Wörter auf verteilte Weise als nichtlineare Kombinationen von Gewichten in einem neuronalen Netz darstellen. Eine alternative Beschreibung ist, dass ein neuronales Netz die Sprachfunktion approximiert. Die Architektur des neuronalen Netzes kann vorwärtsgerichtet oder rekurrent sein , und während ersteres einfacher ist, ist letzteres häufiger.

Typischerweise werden neurale Netzsprachmodelle als probabilistische Klassifikatoren konstruiert und trainiert , die lernen, eine Wahrscheinlichkeitsverteilung vorherzusagen

P(w_{t}\mid \mathrm {context} )\,\forall t\in V

.

Das heißt, das Netzwerk wird darauf trainiert, eine Wahrscheinlichkeitsverteilung über das Vokabular bei gegebenem sprachlichen Kontext vorherzusagen. Dies erfolgt unter Verwendung von standardmäßigen Trainingsalgorithmen für neuronale Netze, wie z. B. stochastischer Gradientenabstieg mit Backpropagation . Der Kontext könnte ein Fenster mit fester Größe von vorherigen Wörtern sein, so dass das Netzwerk Vorhersagen macht

P(w_{t}\mid w_{tk},\dots,w_{t-1})

aus einem Merkmalsvektor, der die vorherigen $k$ Wörter darstellt. Eine andere Option besteht darin, "zukünftige" Wörter sowie "vergangene" Wörter als Merkmale zu verwenden, so dass die geschätzte Wahrscheinlichkeit ist

P(w_{t}\mid w_{tk},\dots ,w_{t-1},w_{t+1},\dots ,w_{t+k})

.

Dies wird als Bag-of-Words- Modell bezeichnet. Wenn die Merkmalsvektoren für die Wörter im Kontext durch eine kontinuierliche Operation kombiniert werden, wird dieses Modell als Continuous Bag of Words Architecture (CBOW) bezeichnet.

Eine dritte Option, die langsamer als das CBOW trainiert, aber etwas besser abschneidet, besteht darin, das vorherige Problem umzukehren und ein neuronales Netzwerk den Kontext lernen zu lassen, wenn ein Wort gegeben ist. Formaler maximiert man bei einer gegebenen Folge von Trainingswörtern die durchschnittliche Log-Wahrscheinlichkeit $w_{1},w_{2},w_{3},\dots ,w_{T}$

{\frac {1}{T}}\sum _{t=1}^{T}\sum _{-k\leq j\leq k,j\neq 0}\log P(w_{t +j}\mid w_{t})

wobei $k$ , die Größe des Trainingskontexts, eine Funktion des Mittelworts sein kann . Dies wird als Skip-Gram- Sprachmodell bezeichnet. Bag-of-Words- und Skip-Gram-Modelle bilden die Grundlage des word2vec- Programms. $w_{t}$

Anstatt neuronale Netzsprachmodelle zu verwenden, um tatsächliche Wahrscheinlichkeiten zu erzeugen, ist es üblich, stattdessen die verteilte Darstellung, die in den "versteckten" Schichten der Netzwerke codiert ist, als Darstellungen von Wörtern zu verwenden; Jedes Wort wird dann auf einen $n$ - dimensionalen reellen Vektor abgebildet, der Wort-Einbettung genannt wird, wobei $n$ die Größe der Schicht unmittelbar vor der Ausgabeschicht ist. Die Darstellungen in Skip-Gram-Modellen haben die besondere Eigenschaft, dass sie semantische Beziehungen zwischen Wörtern als lineare Kombinationen modellieren und eine Form von Kompositionalität erfassen . Wenn beispielsweise in einigen solchen Modellen $v$ die Funktion ist, die ein Wort $w$ auf seine $n$ -d-Vektordarstellung abbildet, dann

v(\mathrm {König} )-v(\mathrm {männlich} )+v(\mathrm {weiblich} )\approx v(\mathrm {Königin} )

wobei ≈ präzisiert wird, indem festgelegt wird, dass seine rechte Seite der nächste Nachbar des Wertes der linken Seite sein muss.

Sonstiges

Ein positionelles Sprachmodell bewertet die Wahrscheinlichkeit, dass bestimmte Wörter in einem Text nahe beieinander vorkommen, nicht unbedingt unmittelbar benachbart. In ähnlicher Weise nutzen Bag-of-Concepts-Modelle die Semantik, die mit Mehrwortausdrücken wie buy_christmas_present verbunden ist, selbst wenn sie in informationsreichen Sätzen wie "heute habe ich viele sehr schöne Weihnachtsgeschenke gekauft" verwendet werden.

Trotz der begrenzten Erfolge bei der Verwendung neuronaler Netze erkennen die Autoren die Notwendigkeit anderer Techniken bei der Modellierung von Gebärdensprachen an.

Bewertung und Benchmarks

Die Bewertung der Qualität von Sprachmodellen erfolgt meist durch Vergleich mit von Menschen erstellten Beispiel-Benchmarks, die aus typischen sprachorientierten Aufgaben erstellt wurden. Andere, weniger etablierte Qualitätstests untersuchen den Eigencharakter eines Sprachmodells oder vergleichen zwei solcher Modelle. Da Sprachmodelle typischerweise dazu gedacht sind, dynamisch zu sein und aus Daten zu lernen, die sie sehen, untersuchen einige vorgeschlagene Modelle die Lernrate, z. B. durch Untersuchung von Lernkurven.

Es wurden verschiedene Datensätze entwickelt, um sie zur Bewertung von Sprachverarbeitungssystemen zu verwenden. Diese beinhalten:

Korpus der sprachlichen Akzeptanz
KLEBER-Benchmark
Microsoft Research Paraphrase Corpus
Multi-Genre-Inferenz natürlicher Sprache
Inferenz in natürlicher Sprache in Frage stellen
Quora-Fragepaare
Erkennen von Textinhalten
Benchmark für semantische Textähnlichkeit
SQuAD Frage-Antwort-Test
Stanford Sentiment Baumbank
Winograd NLI

Kritik

Obwohl gezeigt werden kann, dass moderne Sprachmodelle wie GPT-2 bei einigen Aufgaben der menschlichen Leistung entsprechen, ist nicht klar, dass es sich um plausible kognitive Modelle handelt . Beispielsweise hat sich gezeigt, dass rekurrente neuronale Netze Muster lernen, die Menschen nicht lernen, und dass sie Muster nicht lernen, die Menschen lernen.

Siehe auch

Anmerkungen

Verweise

Zitate

Quellen

JM Ponte und WB Croft (1998). "Ein Sprachmodellierungsansatz für den Informationsabruf". Forschung und Entwicklung im Bereich Information Retrieval . S. 275–281. CiteSeerX 10.1.1.117.4237 .{{cite conference}}: CS1-Wartung: verwendet Autorenparameter ( Link )
F. Song und WB Croft (1999). "Ein allgemeines Sprachmodell für den Informationsabruf". Forschung und Entwicklung im Bereich Information Retrieval . S. 279–280. CiteSeerX 10.1.1.21.6467 .{{cite conference}}: CS1-Wartung: verwendet Autorenparameter ( Link )
Chen, Stanley; Joshua Goodmann (1998). Eine empirische Studie über Glättungstechniken für die Sprachmodellierung (Technischer Bericht). Harvard Universität. CiteSeerX 10.1.1.131.5458 .

Languages

In other projects