Hyperprior - Hyperprior

In der Bayes'schen Statistik ist ein Hyperprior eine vorherige Verteilung auf einem Hyperparameter , dh auf einem Parameter einer vorherigen Verteilung .

Wie bei dem Begriff Hyper, die Verwendung von Hyper ist es aus einer früheren Verteilung eines Parameter des Modells für das zugrunde liegende System zu unterscheiden. Sie entstehen insbesondere bei der Verwendung von konjugierten Priors .

Wenn man beispielsweise eine Beta-Verteilung verwendet , um die Verteilung des Parameters p einer Bernoulli-Verteilung zu modellieren , dann:

  • Die Bernoulli-Verteilung (mit Parameter p ) ist das Modell des zugrunde liegenden Systems;
  • p ist ein Parameter des zugrunde liegenden Systems (Bernoulli-Verteilung);
  • Die Beta-Verteilung (mit den Parametern α und β ) ist die vorherige Verteilung von p ;
  • α und β sind Parameter der vorherigen Verteilung (Beta-Verteilung), daher Hyperparameter;
  • Eine vorherige Verteilung von α und β ist somit ein Hyperprior.

Im Prinzip kann man das oben Gesagte wiederholen: Wenn der Hyperprior selbst Hyperparameter hat, können diese als Hyperhyperparameter bezeichnet werden und so weiter.

Man kann die posteriore Verteilung auf dem Hyperparameter analog als hyperposterior bezeichnen und, wenn diese zur selben Familie gehören, sie konjugierte Hyperverteilungen oder konjugierte hyperprior nennen. Dies wird jedoch schnell sehr abstrakt und aus dem ursprünglichen Problem entfernt.

Zweck

Hyperprioren sind wie konjugierte Priors eine rechnerische Annehmlichkeit - sie ändern nicht den Prozess der Bayes'schen Inferenz, sondern ermöglichen es einfach, den Prior einfacher zu beschreiben und mit ihm zu berechnen.

Unsicherheit

Erstens ermöglicht die Verwendung eines Hyperprior das Ausdrücken von Unsicherheit in einem Hyperparameter: Das Nehmen eines festen Prior ist eine Annahme, das Variieren eines Hyperparameters des Prior ermöglicht das Durchführen einer Sensitivitätsanalyse unter dieser Annahme, und das Nehmen einer Verteilung auf diesem Hyperparameter ermöglicht das Ausdrücken Unsicherheit in dieser Annahme: "Nehmen wir an, dass der Prior von dieser Form ist (diese parametrische Familie), aber dass wir unsicher sind, wie genau die Werte der Parameter sein sollten".

Mischungsverteilung

Wenn man abstrakter einen Hyperprior verwendet, ist die vorherige Verteilung (auf den Parameter des zugrunde liegenden Modells) selbst eine Mischungsdichte : Es ist der gewichtete Durchschnitt der verschiedenen vorherigen Verteilungen (über verschiedene Hyperparameter), wobei der Hyperprior die Gewichtung ist . Dies fügt zusätzliche mögliche Verteilungen hinzu (über die verwendete parametrische Familie hinaus), da parametrische Verteilungsfamilien im Allgemeinen keine konvexen Mengen sind - da eine Mischungsdichte eine konvexe Kombination von Verteilungen ist, liegt sie im Allgemeinen außerhalb der Familie. Zum Beispiel ist die Mischung zweier Normalverteilungen keine Normalverteilung: Wenn man unterschiedliche Mittel (ausreichend weit entfernt) nimmt und jeweils 50% mischt, erhält man eine bimodale Verteilung, die somit nicht normal ist. Tatsächlich ist die konvexe Hülle von Normalverteilungen in allen Verteilungen dicht, so dass Sie in einigen Fällen einen bestimmten Prior beliebig genau annähern können, indem Sie eine Familie mit einem geeigneten Hyperprior verwenden.

Was diesen Ansatz besonders nützlich macht, ist, wenn man konjugierte Priors verwendet: Einzelne konjugierte Priors haben leicht zu berechnende Posterioren, und daher ist eine Mischung aus konjugierten Priors dieselbe Mischung von Posterioren: Man muss nur wissen, wie jedes Konjugat vorherige Änderungen vornimmt. Die Verwendung eines einzelnen Konjugatprior kann zu restriktiv sein, aber die Verwendung einer Mischung von Konjugatprioren kann zu einer gewünschten Verteilung in einer Form führen, mit der sich leicht rechnen lässt. Dies ähnelt der Zerlegung einer Funktion in Eigenfunktionen - siehe Konjugieren vor: Analogie mit Eigenfunktionen .

Dynamisches System

Ein Hyperprior ist eine Verteilung möglicher Hyperparameter auf den Raum. Wenn man konjugierte Priors verwendet, bleibt dieser Raum erhalten, indem man zu Posteriors wechselt. Wenn also Daten eintreffen, ändert sich die Verteilung, bleibt jedoch in diesem Raum: Wenn Daten eintreffen, entwickelt sich die Verteilung als dynamisches System (jeder Punkt des Hyperparameterraums entwickelt sich zu den aktualisierten Hyperparametern) im Laufe der Zeit konvergieren, so wie der Prior selbst konvergiert.

Verweise

  • Bernardo, JM; Smith, AFM (2000). Bayesianische Theorie . New York: Wiley. ISBN   0-471-49464-X .