Bayes-Faktor - Bayes factor

In der Statistik ist die Verwendung von Bayes-Faktoren eine Bayessche Alternative zum klassischen Hypothesentesten . Der Bayes-Modellvergleich ist eine Methode zur Modellauswahl basierend auf Bayes-Faktoren. Die betrachteten Modelle sind statistische Modelle . Das Ziel des Bayes-Faktors besteht darin, die Unterstützung eines Modells gegenüber einem anderen zu quantifizieren, unabhängig davon, ob diese Modelle korrekt sind. Die technische Definition von "Unterstützung" im Kontext der Bayesschen Inferenz wird unten beschrieben.

Definition

Der Bayes-Faktor ist ein Wahrscheinlichkeitsverhältnis der Grenzwahrscheinlichkeit zweier konkurrierender Hypothesen, normalerweise einer Null und einer Alternative.

Die Posterior-Wahrscheinlichkeit eines Modells M gegebenen Daten D ist durch den Satz von Bayes gegeben :

Der schlüsseldatenabhängige Term stellt die Wahrscheinlichkeit dar, dass einige Daten unter der Annahme des Modells M erzeugt werden ; Die korrekte Bewertung ist der Schlüssel zum Bayes'schen Modellvergleich.

Bei einem Modellauswahlproblem , bei dem wir auf Basis der beobachteten Daten D zwischen zwei Modellen wählen müssen , wird die Plausibilität der beiden unterschiedlichen Modelle M 1 und M 2 , parametrisiert durch Modellparametervektoren und , durch den Bayes-Faktor K gegeben von

Wenn die beiden Modelle die gleiche A- priori-Wahrscheinlichkeit haben, so dass der Bayes-Faktor gleich dem Verhältnis der A-posteriori-Wahrscheinlichkeiten von M 1 und M 2 ist . Wenn anstelle des Bayes-Faktor-Integrals die Likelihood entsprechend der Maximum-Likelihood-Schätzung des Parameters für jedes statistische Modell verwendet wird, wird der Test zu einem klassischen Likelihood-Ratio-Test . Im Gegensatz zu einem Likelihood-Ratio-Test hängt dieser Bayes-Modellvergleich nicht von einem einzelnen Parametersatz ab, da er über alle Parameter in jedem Modell (in Bezug auf die jeweiligen Priors) integriert. Ein Vorteil der Verwendung von Bayes-Faktoren besteht jedoch darin, dass sie automatisch und ganz natürlich eine Strafe für die Einbeziehung von zu viel Modellstruktur beinhaltet. Es schützt somit vor Überanpassung . Bei Modellen, bei denen eine explizite Version der Wahrscheinlichkeit nicht verfügbar oder zu kostspielig für eine numerische Auswertung ist, kann eine approximative Bayes-Berechnung für die Modellauswahl in einem Bayes-Framework verwendet werden, mit dem Vorbehalt, dass approximative Bayes-Schätzungen von Bayes-Faktoren häufig verzerrt sind.

Andere Ansätze sind:

Interpretation

Ein Wert von K > 1 bedeutet, dass M 1 von den betrachteten Daten stärker unterstützt wird als M 2 . Beachten Sie, dass das klassische Hypothesentesten einer Hypothese (oder einem Modell) den bevorzugten Status (der „Nullhypothese“) gibt und nur Beweise dagegen berücksichtigt . Harold Jeffreys gab eine Skala für die Interpretation von K :

K dHart Bits Beweiskraft
< 10 0 < 0 < 0 Negativ (unterstützt M 2 )
10 0 bis 10 1/2 0 bis 5 0 bis 1,6 Kaum erwähnenswert
10 1/2 bis 10 1 5 bis 10 1,6 bis 3,3 Erheblich
10 1 bis 10 3/2 10 bis 15 3,3 bis 5,0 Stark
10 3/2 bis 10 2 15 bis 20 5,0 bis 6,6 Sehr stark
> 10 2 > 20 > 6.6 Entscheidend

Die zweite Spalte gibt die entsprechenden Beweisgewichte in Decihartleys (auch als Dezibanen bekannt ); Bits sind der Übersichtlichkeit halber in der dritten Spalte hinzugefügt. Laut IJ Good ist eine Änderung der Beweiskraft von 1 Deziban oder 1/3 eines Bits (dh eine Änderung des Odds Ratio von gerade auf etwa 5:4) ungefähr so ​​fein, wie Menschen ihren Glaubensgrad vernünftig wahrnehmen können in einer Hypothese im täglichen Gebrauch.

Eine häufig zitierte alternative Tabelle wird von Kass und Raftery (1995) bereitgestellt:

log 10 K K Beweiskraft
0 bis 1/2 1 bis 3,2 Nicht mehr wert als eine bloße Erwähnung
1/2 bis 1 3,2 bis 10 Erheblich
1 bis 2 10 bis 100 Stark
> 2 > 100 Entscheidend

Beispiel

Angenommen, wir haben eine Zufallsvariable , die entweder zu einem Erfolg oder einem Misserfolg führt. Wir wollen ein Modell vergleichen M 1 , wo die Wahrscheinlichkeit des Erfolgs ist q = ½, und ein anderes Modell M 2 , wo q unbekannt ist und wir nehmen eine Vorbewertung für q , das ist einheitlich auf [0,1]. Wir nehmen eine Stichprobe von 200 und finden 115 Erfolge und 85 Misserfolge. Die Wahrscheinlichkeit kann nach der Binomialverteilung berechnet werden :

Damit haben wir für M 1

wohingegen für M 2 gilt

Das Verhältnis beträgt dann 1,2, was "kaum erwähnenswert" ist, auch wenn es ganz leicht in Richtung M 1 weist .

Ein frequentistischer Hypothesentest von M 1 (hier als Nullhypothese betrachtet ) hätte zu einem ganz anderen Ergebnis geführt. Ein solcher Test besagt, dass M 1 auf dem Signifikanzniveau von 5% abgelehnt werden sollte, da die Wahrscheinlichkeit, bei einer Stichprobe von 200 bei q = ½ 115 oder mehr Erfolge zu erzielen, 0,02 beträgt, und als zweiseitiger Test, eine Zahl wie zu erhalten extrem oder extremer als 115 ist 0,04. Beachten Sie, dass 115 mehr als zwei Standardabweichungen von 100 entfernt ist. Während also ein frequentistischer Hypothesentest signifikante Ergebnisse auf dem 5%-Signifikanzniveau liefern würde , betrachtet der Bayes-Faktor dies kaum als extremes Ergebnis. Beachten Sie jedoch, dass ein ungleichmäßiger Prior (z. B. einer, der die Tatsache widerspiegelt, dass Sie erwarten, dass die Anzahl von Erfolgen und Misserfolgen in der gleichen Größenordnung liegt) zu einem Bayes-Faktor führen kann, der eher mit dem Frequentist . übereinstimmt Hypothesentest.

Ein klassischer Likelihood-Ratio-Test hätte die maximale Wahrscheinlichkeitsschätzung für q gefunden , nämlich 115200 = 0,575, woraus

(anstatt über alle möglichen q zu mitteln ). Das ergibt ein Likelihood-Verhältnis von 0,1 und weist auf M 2 hin .

M 2 ist ein komplexeres Modell als M 1 , da es einen freien Parameter hat, der es ermöglicht, die Daten genauer zu modellieren. Die Fähigkeit von Bayes-Faktoren, dies zu berücksichtigen, ist ein Grund, warum Bayes'sche Inferenz als theoretische Rechtfertigung und Verallgemeinerung von Occams Rasiermesser vorgebracht wurde , wodurch Typ-I-Fehler reduziert werden .

Andererseits berücksichtigt die moderne Methode der relativen Wahrscheinlichkeit im Gegensatz zur klassischen Likelihood-Ratio die Anzahl der freien Parameter in den Modellen. Die Methode der relativen Wahrscheinlichkeit könnte wie folgt angewendet werden. Das Modell M 1 hat 0 Parameter, daher beträgt sein AIC- Wert 2·0 − 2·ln(0,005956) = 10,2467. Das Modell M 2 hat 1 Parameter, daher beträgt sein AIC-Wert 2·1 − 2·ln(0,056991) = 7,7297. Daher ist M 1 etwa exp((7,7297 − 10,2467)/2) = 0,284 mal so wahrscheinlich wie M 2, um den Informationsverlust zu minimieren. Somit ist M 2 etwas bevorzugt, aber M 1 kann nicht ausgeschlossen werden.

Siehe auch

Statistische Kennzahlen

Verweise

Weiterlesen

Externe Links