Posterior prädiktive Verteilung - Posterior predictive distribution

In der Bayes-Statistik ist die posterior-prädiktive Verteilung die Verteilung möglicher unbeobachteter Werte, die von den beobachteten Werten abhängig sind.

Bei einer Reihe von N i.id- Beobachtungen wird ein neuer Wert aus einer Verteilung gezogen, die von einem Parameter abhängt :

Es mag verlockend erscheinen, einen einzigen besten Schätzwert für einzusetzen, aber dies ignoriert die Unsicherheit über , und da eine Unsicherheitsquelle ignoriert wird, ist die Vorhersageverteilung zu eng. Anders ausgedrückt, Vorhersagen von Extremwerten von Will haben eine geringere Wahrscheinlichkeit, als wenn die Unsicherheit der Parameter, die durch ihre Posterior-Verteilung gegeben ist, berücksichtigt würde.

Eine aposteriori prädiktive Verteilung erklärt die Unsicherheit über . Die Posterior-Verteilung der möglichen Werte hängt ab von :

Und die posteriore prädiktive Verteilung von gegeben wird berechnet, indem die Verteilung von gegeben über die posteriore Verteilung von gegeben marginalisiert wird :

Da sie die Unsicherheit über berücksichtigt , wird die aposteriorische Vorhersageverteilung im Allgemeinen breiter sein als eine Vorhersageverteilung, die eine einzelne beste Schätzung für einsetzt .

Vorherige vs. posteriore prädiktive Verteilung

Die vorherige Vorhersageverteilung ist in einem Bayesschen Kontext die Verteilung eines Datenpunkts, die gegenüber seiner vorherigen Verteilung marginalisiert ist. Das heißt, wenn und , dann ist die vorhersagende Verteilung die entsprechende Verteilung , wobei

Dies ähnelt der prädiktiven Posterior-Verteilung, außer dass die Marginalisierung (oder äquivalent der Erwartungswert) in Bezug auf die vorherige Verteilung anstelle der posterioren Verteilung genommen wird.

Wenn die Prior-Verteilung eine konjugierte Prior-Verteilung ist , dann gehört die Posterior-Prädiktionsverteilung zu derselben Familie von Verteilungen wie die Prior-Prädiktionsverteilung. Dies ist leicht zu erkennen. Wenn die Prior-Verteilung konjugiert ist, dann

dh die Posterior-Verteilung gehört auch zu, aber einfach mit einem anderen Parameter anstelle des ursprünglichen Parameters Dann,

Daher folgt die posteriore prädiktive Verteilung der gleichen Verteilung H wie die vorherige prädiktive Verteilung, jedoch mit den posterioren Werten der Hyperparameter anstelle der vorherigen.

Die vorhergesagte Verteilung hat die Form einer zusammengesetzten Verteilung und wird in der Tat oft verwendet, um eine zusammengesetzte Verteilung zu definieren , da irgendwelche komplizierenden Faktoren wie die Abhängigkeit von den Daten und das Problem der Konjugation fehlen . Zum Beispiel kann der t-Verteilung nach Student kann definiert als Stand der prädiktiven Verteilung einer Normalverteilung mit bekannten Mittelwert μ aber unbekannter Varianz σ x 2 , mit einem Konjugat vor verkleinerte Invers-Chi-Quadrat-Verteilung auf platziert σ x 2 , mit Hyperparameter ν und σ 2 . Die resultierende zusammengesetzte Verteilung ist in der Tat eine nicht standardisierte Student-t-Verteilung und folgt einer der beiden häufigsten Parametrisierungen dieser Verteilung. Dann wäre die entsprechende posterior-prädiktive Verteilung wieder Student's t, wobei die aktualisierten Hyperparameter , die in der posterioren Verteilung erscheinen, auch direkt in der posterioren prädiktiven Verteilung erscheinen.

In einigen Fällen wird die geeignete zusammengesetzte Verteilung unter Verwendung einer anderen Parametrisierung definiert als diejenige, die für die Vorhersageverteilungen im vorliegenden Problem am natürlichsten wäre. Dies ist häufig darauf zurückzuführen, dass die frühere Verteilung, die zum Definieren der zusammengesetzten Verteilung verwendet wird, sich von der im aktuellen Problem verwendeten unterscheidet. Zum Beispiel wurde, wie oben angegeben, die Student-t-Verteilung in Form einer skalierten inversen Chi-Quadrat-Verteilung auf die Varianz definiert. Es ist jedoch üblicher, in dieser Situation eine inverse Gammaverteilung als Konjugat zu verwenden. Die beiden sind in der Tat äquivalent, abgesehen von der Parametrisierung; Daher kann die t-Verteilung nach Student immer noch für beide Vorhersageverteilungen verwendet werden, aber die Hyperparameter müssen vor dem Einstecken neu parametrisiert werden.

In exponentiellen Familien

Die meisten, aber nicht alle gängigen Verteilungsfamilien gehören zur exponentiellen Verteilungsfamilie. Exponentielle Familien haben eine große Anzahl nützlicher Eigenschaften. Eine davon ist, dass alle Mitglieder konjugierte Prior- Verteilungen haben – während nur sehr wenige andere Verteilungen konjugierte Prior- Verteilungen haben.

Vorherige prädiktive Verteilung in Exponentialfamilien

Eine weitere nützliche Eigenschaft ist , dass die Wahrscheinlichkeitsdichtefunktion der Verbindung Verteilung auf den Stand der prädiktiven Verteilung einer entsprechenden Exponentialfamilie Verteilung Rand gedrängt über seine Konjugat vor Verteilung analytisch bestimmt werden können. Angenommen, das ist ein Mitglied der Exponentialfamilie mit einem Parameter , der gemäß dem natürlichen Parameter parametrisiert und verteilt ist als

while ist die entsprechende Konjugation prior, verteilt als

Dann ist die vorhersagende Verteilung (das Ergebnis der Verbindung mit )

Die letzte Zeile folgt , von der vorherigen durch Erkennen , daß die Funktion innerhalb des Integral ist die Dichtefunktion einer Zufallsvariablen verteilt , mit Ausnahme der Normierungsfunktion . Daher ist das Ergebnis der Integration der Kehrwert der Normalisierungsfunktion.

Das obige Ergebnis ist unabhängig von der Wahl der Parametrisierung von , da keines von , erscheint und erscheint. ( ist eine Funktion des Parameters und nimmt daher je nach Wahl der Parametrisierung unterschiedliche Formen an.) Bei der Standardauswahl von und ist es oft einfacher, direkt mit den üblichen Parametern zu arbeiten, als die natürlichen Parameter umzuschreiben .

Der Grund, warum das Integral bearbeitbar ist, besteht darin, dass es die Berechnung der Normalisierungskonstante einer Dichte beinhaltet, die durch das Produkt einer vorherigen Verteilung und einer Wahrscheinlichkeit definiert ist . Wenn die beiden konjugiert sind , ist das Produkt eine Posterior-Verteilung , und nach Annahme ist die Normalisierungskonstante dieser Verteilung bekannt. Wie oben gezeigt, folgt die Dichtefunktion der zusammengesetzten Verteilung einer bestimmten Form, bestehend aus dem Produkt der Funktion , die Teil der Dichtefunktion für ist , mit dem Quotienten zweier Formen der Normierung "Konstante" für , eine abgeleitet von a Vorverteilung und die andere aus einer Nachverteilung. Die Beta-Binomialverteilung ist ein gutes Beispiel dafür, wie dieser Prozess funktioniert.

Trotz der analytischen Handhabbarkeit solcher Verteilungen sind sie an sich normalerweise keine Mitglieder der Exponentialfamilie . Zum Beispiel sind die dreiparametrige Student-t-Verteilung , die Beta-Binomialverteilung und die Dirichlet-Multinomialverteilung alle prädiktive Verteilungen von Exponentialfamilienverteilungen (der Normalverteilung , Binomialverteilung bzw. Multinomialverteilung ), aber keine ist Mitglieder der Exponentialverteilung Familie. Dies ist oben aufgrund der funktionellen Abhängigkeit von zu sehen . In einer exponentiellen Familienverteilung muss es möglich sein, die gesamte Dichtefunktion in multiplikative Faktoren von drei Typen aufzuteilen: (1) Faktoren, die nur Variablen enthalten, (2) Faktoren, die nur Parameter enthalten, und (3) Faktoren, deren Logarithmus zwischen Variablen faktorisiert und Parameter. Das Vorhandensein von macht dies unmöglich, es sei denn, die Funktion "Normalisierung" ignoriert das entsprechende Argument entweder vollständig oder verwendet es nur im Exponenten eines Ausdrucks.

Posterior prädiktive Verteilung in Exponentialfamilien

Wenn ein konjugierter Prior verwendet wird, gehört die Posterior-Prädiktionsverteilung zur gleichen Familie wie die Prior-Prädiktionsverteilung und wird einfach durch Einsetzen der aktualisierten Hyperparameter für die Posterior-Verteilung des/der Parameter(s) in die Formel für die A-Prädiktionsverteilung bestimmt . Unter Verwendung der allgemeinen Form der Posterior-Update-Gleichungen für Exponentialfamilienverteilungen (siehe den entsprechenden Abschnitt im Artikel zur Exponentialfamilie ) können wir eine explizite Formel für die Posterior-Prädiktionsverteilung schreiben:

wo

Dies zeigt, dass die posterior-prädiktive Verteilung einer Reihe von Beobachtungen in dem Fall, in dem die Beobachtungen einer exponentiellen Familie mit dem entsprechenden konjugierten Prior folgen , die gleiche Wahrscheinlichkeitsdichte wie die zusammengesetzte Verteilung mit Parametern wie oben angegeben hat. Die Beobachtungen selbst gehen nur in das Formular ein

Dies wird als ausreichende Statistik der Beobachtungen bezeichnet, weil sie uns alles sagt, was wir über die Beobachtungen wissen müssen, um auf deren Grundlage eine posterior- oder posterior-Vorhersageverteilung zu berechnen (oder auch alles andere basierend auf der Wahrscheinlichkeit der Beobachtungen, wie die Marginal Likelihood ).

Gemeinsame prädiktive Verteilung, marginale Wahrscheinlichkeit

Es ist auch möglich, das Ergebnis des Zusammensetzens einer gemeinsamen Verteilung über eine feste Anzahl unabhängiger, identisch verteilter Stichproben mit einer vorherigen Verteilung über einen gemeinsamen Parameter zu berücksichtigen. In einer Bayesschen Umgebung tritt dies in verschiedenen Kontexten auf: Berechnen der vorherigen oder posterioren prädiktiven Verteilung mehrerer neuer Beobachtungen und Berechnen der marginalen Wahrscheinlichkeit beobachteter Daten (der Nenner im Bayesschen Gesetz ). Wenn die Verteilung der Stichproben aus der exponentiellen Familie stammt und die vorherige Verteilung konjugiert ist, ist die resultierende zusammengesetzte Verteilung handhabbar und folgt einer ähnlichen Form wie der obige Ausdruck. Tatsächlich lässt sich leicht zeigen, dass die gemeinsame zusammengesetzte Verteilung einer Menge für Beobachtungen

Dieses Ergebnis und das obige Ergebnis für eine einzelne zusammengesetzte Verteilung erstrecken sich trivial auf den Fall einer Verteilung über eine vektorwertige Beobachtung, wie beispielsweise eine multivariate Gaußsche Verteilung .

Beziehung zu Gibbs-Sampling

Das Ausklappen eines Knotens in einem zusammengeklappten Gibbs-Sampler entspricht dem Zusammensetzen . Wenn also eine Menge unabhängiger, identisch verteilter (iid) Knoten alle von demselben vorherigen Knoten abhängen und dieser Knoten ausgeklappt wird, ist die resultierende bedingte Wahrscheinlichkeit eines Knotens gegeben, die anderen sowie die Eltern des ausgeklappten Knotens Knoten (aber keine Konditionierung auf andere Knoten, zB irgendwelche untergeordneten Knoten) ist die gleiche wie die posterior prädiktive Verteilung aller verbleibenden iid-Knoten (oder richtiger früher iid-Knoten, da das Kollabieren Abhängigkeiten zwischen den Knoten einführt). Das heißt, es ist im Allgemeinen möglich, das Auseinanderfallen eines Knotens zu implementieren, indem einfach alle Eltern des Knotens direkt allen Kindern zugeordnet werden und die vorherige bedingte Wahrscheinlichkeitsverteilung, die jedem Kind zugeordnet ist, durch die entsprechende posterior-prädiktive Verteilung für das Kind bedingt durch seine ersetzt wird Eltern und die anderen ehemals iid-Knoten, die auch Kinder des entfernten Knotens waren. Ein Beispiel, eine genauere Diskussion und einige Vorsichtsmaßnahmen zu bestimmten kniffligen Problemen finden Sie im Artikel zur Dirichlet-Multinomialverteilung .

Siehe auch

Verweise