Kategoriale Verteilung - Categorical distribution

Kategorisch
Parameter Anzahl der Kategorien ( Ganzzahl ) Ereigniswahrscheinlichkeiten
Unterstützung
PMF

(1) (2) (3)

Wo ist die Iverson-Klammer?
Modus

In der Wahrscheinlichkeitstheorie und Statistik ist eine kategoriale Verteilung (auch als verallgemeinerte Bernoulli-Verteilung , Multinoulli-Verteilung bezeichnet ) eine diskrete Wahrscheinlichkeitsverteilung , die die möglichen Ergebnisse einer Zufallsvariablen beschreibt, die eine von K möglichen Kategorien annehmen kann , mit der Wahrscheinlichkeit jeder Kategorie gesondert angegeben. Es gibt keine angeborene zugrunde liegende Ordnung dieser Ergebnisse, aber zur Vereinfachung der Beschreibung der Verteilung werden oft numerische Bezeichnungen angebracht (zB 1 bis K ). Die K- dimensionale kategoriale Verteilung ist die allgemeinste Verteilung über ein K- Weg-Ereignis; jede andere diskrete Verteilung über einen Stichprobenraum der Größe K ist ein Sonderfall. Die Parameter, die die Wahrscheinlichkeiten jedes möglichen Ergebnisses spezifizieren, werden nur durch die Tatsache eingeschränkt, dass jeder im Bereich von 0 bis 1 liegen muss und alle die Summe 1 ergeben müssen.

Die kategoriale Verteilung ist die Verallgemeinerung der Bernoulli-Verteilung für eine kategoriale Zufallsvariable, dh für eine diskrete Variable mit mehr als zwei möglichen Ergebnissen, wie zB einem Würfelwurf . Auf der anderen Seite ist die kategoriale Verteilung ein Sonderfall der Multinomialverteilung , da sie die Wahrscheinlichkeiten potenzieller Ergebnisse einer einzelnen Ziehung und nicht mehrerer Ziehungen angibt.

Terminologie

Gelegentlich wird die kategoriale Verteilung als "diskrete Verteilung" bezeichnet. Dies bezieht sich jedoch richtigerweise nicht auf eine bestimmte Verteilungsfamilie, sondern auf eine allgemeine Klasse von Verteilungen .

In einigen Bereichen, wie dem maschinellen Lernen und der Verarbeitung natürlicher Sprache , werden die kategoriale und die Multinomialverteilung verschmolzen, und es ist üblich, von einer „Multinomialverteilung“ zu sprechen, wenn eine „kategoriale Verteilung“ genauer wäre. Diese ungenaue Verwendung rührt von der Tatsache her, dass es manchmal bequem ist, das Ergebnis einer kategorialen Verteilung als "1-von- K " -Vektor auszudrücken (ein Vektor, bei dem ein Element eine 1 enthält und alle anderen Elemente eine 0 enthalten) anstatt als eine ganze Zahl im Bereich von 1 bis K ; in dieser Form entspricht eine kategoriale Verteilung einer Multinomialverteilung für eine einzelne Beobachtung (siehe unten).

Die Verschmelzung der kategorialen und der multinomialen Verteilung kann jedoch zu Problemen führen. In einer Dirichlet-Multinomialverteilung , die beispielsweise in natürlichen Sprachverarbeitungsmodellen (obwohl normalerweise nicht mit diesem Namen) als Ergebnis einer kollabierten Gibbs-Abtastung auftritt, bei der Dirichlet-Verteilungen aus einem hierarchischen Bayes-Modell kollabiert werden , ist es sehr wichtig, important kategorisch von multinomial unterscheiden. Die gemeinsame Verteilung der gleichen Variablen mit der gleichen Dirichlet-Multinomialverteilung hat zwei verschiedene Formen, je nachdem, ob sie als Verteilung charakterisiert wird, deren Domäne sich über einzelne kategoriale Knoten oder über multinomiale Anzahlen von Knoten in jeder bestimmten Kategorie erstreckt (ähnlich der Unterscheidung zwischen einer Menge von Bernoulli-verteilten Knoten und einem einzelnen binomialverteilten Knoten). Beide Formen haben sehr ähnlich aussehende Wahrscheinlichkeitsmassenfunktionen (PMFs), die sich beide auf die Anzahl der Knoten in einer Kategorie im multinomialen Stil beziehen. Die PMF vom Multinomial-Stil hat jedoch einen zusätzlichen Faktor, einen Multinomial-Koeffizienten , das heißt eine Konstante gleich 1 in der PMF vom kategorialen Stil. Eine Verwechslung der beiden kann bei Einstellungen, bei denen dieser zusätzliche Faktor in Bezug auf die interessierenden Verteilungen nicht konstant ist, leicht zu falschen Ergebnissen führen. Der Faktor ist in den vollständigen Bedingungen, die in Gibbs-Stichproben verwendet werden, und in den optimalen Verteilungen in Variationsmethoden häufig konstant .

Verteilungen formulieren

Eine kategoriale Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung, deren Stichprobenraum die Menge von k einzeln identifizierten Elementen ist. Es ist die Verallgemeinerung der Bernoulli-Verteilung für eine kategoriale Zufallsvariable.

In einer Formulierung der Verteilung wird angenommen, dass der Abtastraum eine endliche Folge von ganzen Zahlen ist. Die genauen ganzen Zahlen, die als Label verwendet werden, sind unwichtig; sie können {0, 1, ..., k  − 1} oder {1, 2, ..., k } oder jeder andere beliebige Satz von Werten sein. In den folgenden Beschreibungen verwenden wir der Einfachheit halber {1, 2, ..., k }, obwohl dies der Konvention für die Bernoulli-Verteilung widerspricht , die {0, 1} verwendet. In diesem Fall lautet die Wahrscheinlichkeitsmassenfunktion f :

wobei , die Wahrscheinlichkeit darstellt, Element i und zu sehen .

Eine andere Formulierung, die komplexer erscheint, aber mathematische Manipulationen erleichtert, lautet wie folgt unter Verwendung der Iverson-Klammer :

wo ergibt 1 wenn , 0 sonst. Diese Formulierung hat verschiedene Vorteile, z. B.:

Eine weitere Formulierung macht den Zusammenhang zwischen der kategorialen und der multinomialen Verteilung explizit, indem sie die kategoriale Verteilung als einen Spezialfall der Multinomialverteilung behandelt, in dem der Parameter n der Multinomialverteilung (die Anzahl der Stichproben) auf 1 festgelegt ist. In dieser Formulierung , kann der Abtastraum als die Menge von 1-aus- K- codierten Zufallsvektoren x der Dimension k betrachtet werden , die die Eigenschaft haben, dass genau ein Element den Wert 1 und die anderen den Wert 0 haben. Das bestimmte Element mit dem Wert 1 zeigt an, welche Kategorie gewählt wurde. Die Wahrscheinlichkeitsmassenfunktion f in dieser Formulierung lautet:

wobei repräsentiert die Wahrscheinlichkeit, Element i und zu sehen . Dies ist die von Bischof übernommene Formulierung .

Eigenschaften

Die möglichen Wahrscheinlichkeiten für die kategoriale Verteilung mit sind der 2-Simplex , eingebettet in den 3-Raum.
  • Die Verteilung ist vollständig durch die jeder Zahl i zugeordneten Wahrscheinlichkeiten gegeben : , i = 1,..., k , wobei . Die möglichen Wahrscheinlichkeiten sind genau die im standarddimensionalen Simplex ; für k = 2 reduziert sich dies auf die möglichen Wahrscheinlichkeiten, dass die Bernoulli-Verteilung der 1-Simplex ist,
  • Die Verteilung ist ein Sonderfall einer "multivariaten Bernoulli-Verteilung", bei der genau eine der k 0-1 Variablen den Wert eins annimmt.
  • Sei die Realisierung aus einer kategorialen Verteilung. Definieren Sie den Zufallsvektor Y als zusammengesetzt aus den Elementen:
wobei I die Indikatorfunktion ist . Dann hat Y eine Verteilung, die ein Spezialfall der Multinomialverteilung mit Parameter ist . Die Summe unabhängiger und identisch verteilter solcher Zufallsvariablen Y, die aus einer kategorialen Verteilung mit Parameter gebildet wird, ist multinomial verteilt mit Parametern und
  • Die konjugierte Prior- Verteilung einer kategorialen Verteilung ist eine Dirichlet-Verteilung . Weitere Informationen finden Sie im Abschnitt unten .
  • Die ausreichende Statistik aus n unabhängigen Beobachtungen ist die Anzahl der Beobachtungen (oder entsprechend der Anteil) der Beobachtungen in jeder Kategorie, wobei die Gesamtzahl der Versuche (= n ) festgelegt ist.
  • Die Indikatorfunktion einer Beobachtung mit einem Wert, i , entspricht die Iverson Halterung Funktion oder die Kronecker - Deltafunktion ist , Bernoulli - Verteilung mit dem Parameter

Bayes'sche Inferenz mit konjugiertem Prior

In der Bayesschen Statistik ist die Dirichlet-Verteilung die konjugierte Prior- Verteilung der kategorialen Verteilung (und auch der Multinomialverteilung ). Dies bedeutet , dass in einem Modell eines Datenpunktes aus einer kategorische Verteilung mit unbekanntem Parametervektor p , und (in Standard - Bayes - Stil) wir diese Parameter als ein zur Behandlung wählen Zufallsvariable und gibt ihm eine Vorverteilung eine definierte Verwendung von Dirichlet - Verteilung , dann ist die Posterior-Verteilung des Parameters nach Einbeziehung der aus den beobachteten Daten gewonnenen Erkenntnisse ebenfalls ein Dirichlet. Intuitiv kann in einem solchen Fall ausgehend von dem, was über den Parameter vor dem Beobachten des Datenpunkts bekannt ist, das Wissen dann basierend auf dem Datenpunkt aktualisiert werden, was eine neue Verteilung der gleichen Form wie die alte ergibt. So kann die Kenntnis eines Parameters sukzessive aktualisiert werden, indem nacheinander neue Beobachtungen aufgenommen werden, ohne auf mathematische Schwierigkeiten zu stoßen.

Formal kann dies wie folgt ausgedrückt werden. Ein Modell gegeben

dann gilt:

Diese Beziehung wird in der Bayes-Statistik verwendet , um den zugrunde liegenden Parameter p einer kategorialen Verteilung bei einer Sammlung von N Stichproben zu schätzen . Intuitiv können wir den hyperprior Vektor α als Pseudocounts betrachten , dh als Repräsentant der Anzahl von Beobachtungen in jeder Kategorie, die wir bereits gesehen haben. Dann addieren wir einfach die Zählungen für alle neuen Beobachtungen (der Vektor c ), um die Posterior-Verteilung abzuleiten.

Weitere Intuition ergibt sich aus dem Erwartungswert der Posterior-Verteilung (siehe den Artikel zur Dirichlet-Verteilung ):

Dies besagt, dass die erwartete Wahrscheinlichkeit, eine Kategorie i unter den verschiedenen diskreten Verteilungen zu sehen, die durch die Posterior-Verteilung erzeugt werden, einfach gleich dem Anteil der tatsächlich in den Daten gesehenen Vorkommen dieser Kategorie ist, einschließlich der Pseudozählungen in der vorherigen Verteilung. Dies ist intuitiv sehr sinnvoll: Wenn es beispielsweise drei mögliche Kategorien gibt und in 40 % der Fälle Kategorie 1 in den beobachteten Daten vorkommt, würde man erwarten, dass Kategorie 1 im Durchschnitt 40 % der Zeit in den beobachteten Daten vorkommt auch die hintere Verteilung.

(Diese Intuition ignoriert den Effekt der a-priori-Verteilung. Darüber hinaus ist die aposteriorische Verteilung eine Verteilung über die Verteilungen . Die aposteriorische Verteilung beschreibt im Allgemeinen den fraglichen Parameter, und in diesem Fall ist der Parameter selbst eine diskrete Wahrscheinlichkeitsverteilung, dh die tatsächliche kategoriale Wenn zum Beispiel 3 Kategorien im Verhältnis 40:5:55 in den beobachteten Daten enthalten sind, dann wird der Effekt der vorherigen Verteilung ignoriert, der wahre Parameter – dh die wahre, zugrunde liegende Verteilung, die unsere beobachteten Daten generiert hat – würde den Durchschnittswert von (0.40,0,05,0,55) haben, was der Posterior-Wert tatsächlich zeigt, aber die wahre Verteilung könnte tatsächlich (0,35,0,07,0,58) oder (0,42,0,04,0,54) oder . sein verschiedene andere Möglichkeiten in der Nähe.Das Maß an Unsicherheit hier wird durch die Varianz des Posterior bestimmt, die durch die Gesamtzahl der Beobachtungen gesteuert wird – je mehr Daten beobachtet werden, desto weniger Unsicherheit über der wahre Parameter.)

(Technisch gesehen sollte der Prior-Parameter eigentlich als Darstellung früherer Beobachtungen der Kategorie angesehen werden . Dann repräsentiert der aktualisierte Posterior-Parameter Posterior-Beobachtungen. Dies spiegelt die Tatsache wider, dass eine Dirichlet-Verteilung mit eine völlig flache Form hat – im Wesentlichen eine gleichmäßige Verteilung über das Simplex der möglichen Werte von p . Logischerweise stellt eine solche flache Verteilung eine totale Unwissenheit dar, entsprechend keinerlei Beobachtungen jeglicher Art. Die mathematische Aktualisierung des Posterior funktioniert jedoch gut, wenn wir den Term ignorieren und einfach den α- Vektor als direkt betrachten stellt eine Menge von Pseudocounts dar. Außerdem wird dadurch das Problem vermieden, Werte kleiner als 1 zu interpretieren .)

MAP-Schätzung

Die Maximum-a-posteriori-Schätzung des Parameters p im obigen Modell ist einfach der Modus der posterioren Dirichlet-Verteilung , dh

In vielen praktischen Anwendungen besteht die einzige Möglichkeit, die Bedingung zu garantieren, darin, für alle i zu setzen .

Geringfügige Wahrscheinlichkeit

Im obigen Modell ist die marginale Likelihood der Beobachtungen (dh die gemeinsame Verteilung der Beobachtungen, wobei der vorherige Parameter marginalisiert ist ) eine Dirichlet-Multinomialverteilung :

Diese Verteilung spielt in hierarchischen Bayes-Modellen eine wichtige Rolle , da bei der Inferenz über solche Modelle mit Methoden wie Gibbs-Sampling oder Variational Bayes die Dirichlet-Prior-Verteilungen oft marginalisiert werden. Weitere Informationen finden Sie im Artikel zu dieser Verteilung .

Posterior prädiktive Verteilung

Die posterior-prädiktive Verteilung einer neuen Beobachtung im obigen Modell ist die Verteilung, die eine neue Beobachtung annehmen würde, wenn der Satz von N kategorialen Beobachtungen gegeben ist. Wie im Artikel über die Dirichlet-Multinomialverteilung gezeigt , hat sie eine sehr einfache Form:

Es gibt verschiedene Beziehungen zwischen dieser Formel und den vorherigen:

  • Die posterior-prädiktive Wahrscheinlichkeit, eine bestimmte Kategorie zu sehen, entspricht dem relativen Anteil früherer Beobachtungen in dieser Kategorie (einschließlich der Pseudo-Beobachtungen der vorherigen). Dies ist logisch sinnvoll – intuitiv würden wir erwarten, eine bestimmte Kategorie entsprechend der bereits beobachteten Häufigkeit dieser Kategorie zu sehen.
  • Die Posterior-Prädiktionswahrscheinlichkeit ist gleich dem Erwartungswert der Posterior-Verteilung. Dies wird weiter unten erläutert.
  • Als Ergebnis kann diese Formel einfach ausgedrückt werden als "die aposteriorische prädiktive Wahrscheinlichkeit, eine Kategorie zu sehen, ist proportional zur beobachteten Gesamtzahl dieser Kategorie" oder als "die erwartete Anzahl einer Kategorie ist gleich der beobachteten Gesamtzahl von die Kategorie", wobei "beobachtete Zählung" die Pseudo-Beobachtungen des Priors einschließt.

Der Grund für die Äquivalenz zwischen der Posterior-Prädiktionswahrscheinlichkeit und dem Erwartungswert der Posterior-Verteilung von p wird bei erneuter Überprüfung der obigen Formel offensichtlich. Wie im Artikel über die posterior-prädiktive Verteilung erläutert , hat die Formel für die posterior-prädiktive Wahrscheinlichkeit die Form eines Erwartungswerts in Bezug auf die posteriore Verteilung:

Die entscheidende Zeile oben ist die dritte. Der zweite folgt direkt aus der Definition des Erwartungswerts. Die dritte Zeile ist speziell für die kategoriale Verteilung und folgt aus der Tatsache, dass speziell in der kategorialen Verteilung der erwartete Wert des Sehens eines bestimmten Wertes i direkt durch den zugehörigen Parameter p i spezifiziert wird . Die vierte Zeile ist einfach eine Umschreibung der dritten in einer anderen Notation, wobei die Notation weiter oben für einen Erwartungswert bezüglich der posterioren Verteilung der Parameter verwendet wird.

Beobachten Sie die Datenpunkte nacheinander und berücksichtigen Sie jedes Mal ihre Vorhersagewahrscheinlichkeit, bevor Sie den Datenpunkt beobachten und den Posterioren aktualisieren. Für jeden gegebenen Datenpunkt hängt die Wahrscheinlichkeit, dass dieser Punkt eine gegebene Kategorie annimmt, von der Anzahl der Datenpunkte ab, die sich bereits in dieser Kategorie befinden. In diesem Szenario, wenn eine Kategorie eine hohe Häufigkeit aufweist, ist es wahrscheinlicher, dass neue Datenpunkte dieser Kategorie beitreten – eine weitere Bereicherung derselben Kategorie. Diese Art von Szenario wird oft als präferenzielle Bindung (oder "reich werden reicher") bezeichnet. Dies modelliert viele reale Prozesse, und in solchen Fällen haben die Entscheidungen, die von den ersten Datenpunkten getroffen werden, einen übergroßen Einfluss auf die restlichen Datenpunkte.

Posterior bedingte Verteilung

Beim Gibbs-Sampling muss man in der Regel aus bedingten Verteilungen in Bayes-Netzwerken mit mehreren Variablen ziehen , in denen jede Variable von allen anderen abhängig ist. In Netzwerken, die kategoriale Variablen mit Dirichlet- Prioritäten enthalten (z. B. Mischungsmodelle und Modelle mit Mischungskomponenten), werden die Dirichlet-Verteilungen oft aus dem Netzwerk "zusammengebrochen" ( ausgegrenzt ), was Abhängigkeiten zwischen den verschiedenen kategorialen Knoten einführt, die von einem gegebenen Prior abhängig sind (genauer gesagt ist ihre gemeinsame Verteilung eine Dirichlet-Multinomialverteilung ). Einer der Gründe dafür ist, dass in einem solchen Fall die Verteilung eines kategorialen Knotens bei den anderen genau die posterior-prädiktive Verteilung der verbleibenden Knoten ist.

Das heißt für eine Menge von Knoten , wenn der fragliche Knoten als bezeichnet wird und der Rest als , dann

wobei die Anzahl der Knoten mit der Kategorie i unter den anderen Knoten als Knoten n ist .

Probenahme

Es gibt eine Reihe von Methoden , aber die gebräuchlichste Methode zur Stichprobenziehung aus einer kategorialen Verteilung verwendet eine Art von Stichproben mit inverser Transformation :

Angenommen, eine Verteilung wird als "proportional zu" einem Ausdruck mit unbekannter Normalisierungskonstante ausgedrückt . Vor der Entnahme von Proben bereitet man einige Werte wie folgt vor:

  1. Berechnen Sie den nicht normalisierten Wert der Verteilung für jede Kategorie.
  2. Summiere sie und dividiere jeden Wert durch diese Summe, um sie zu normalisieren .
  3. Legen Sie den Kategorien eine Art Reihenfolge fest (zB durch einen Index, der von 1 bis k läuft , wobei k die Anzahl der Kategorien ist).
  4. Konvertieren Sie die Werte in eine kumulative Verteilungsfunktion (CDF), indem Sie jeden Wert durch die Summe aller vorherigen Werte ersetzen. Dies kann in der Zeit O(k) erfolgen . Der resultierende Wert für die erste Kategorie ist 0.

Dann muss jedes Mal ein Wert abgetastet werden:

  1. Wähle eine gleichmäßig verteilte Zahl zwischen 0 und 1.
  2. Suchen Sie die größte Zahl in der CDF, deren Wert kleiner oder gleich der gerade gewählten Zahl ist. Dies kann in der Zeit O(log(k)) durch binäre Suche erfolgen .
  3. Gibt die Kategorie zurück, die diesem CDF-Wert entspricht.

Wenn viele Werte aus derselben kategorialen Verteilung gezogen werden müssen, ist der folgende Ansatz effizienter. Es zieht n Stichproben in O(n)-Zeit (vorausgesetzt, dass eine O(1)-Näherung verwendet wird, um Werte aus der Binomialverteilung zu ziehen).

function draw_categorical(n) // where n is the number of samples to draw from the categorical distribution
  r = 1
  s = 0
  for i from 1 to k // where k is the number of categories
    v = draw from a binomial(n, p[i] / r) distribution // where p[i] is the probability of category i
    for j from 1 to v
      z[s++] = i // where z is an array in which the results are stored
    n = n - v
    r = r - p[i]
  shuffle (randomly re-order) the elements in z
  return z

Probenahme über die Gumbel-Verteilung

Beim maschinellen Lernen ist es typisch, die kategoriale Verteilung über eine uneingeschränkte Darstellung in zu parametrisieren , deren Komponenten gegeben sind durch:

wo ist eine reelle Konstante. Mit dieser Darstellung kann unter Verwendung der Softmax-Funktion wiederhergestellt werden , die dann unter Verwendung der oben beschriebenen Techniken abgetastet werden kann. Es gibt jedoch eine direktere Stichprobenmethode, die Stichproben aus der Gumbel-Verteilung verwendet . Lassen Sie sein k unabhängige Ziehungen von der Standardverteilung Gumbel, dann

wird eine Stichprobe aus der gewünschten kategorialen Verteilung sein. (Wenn eine Probe , die von der Standard - gleichmäßigen Verteilung , dann wird eine Probe aus der Standard - Gumbelverteilung.)

Siehe auch

Verwandte Distributionen

Anmerkungen

Verweise