Jeffreys vor - Jeffreys prior

In der Bayesschen Wahrscheinlichkeit ist der Jeffreys-Prior , benannt nach Sir Harold Jeffreys , eine nicht-informative (objektive) Prior-Verteilung für einen Parameterraum; seine Dichtefunktion ist proportional zur Quadratwurzel der Determinante der Fisher-Informationsmatrix :

Es hat die Haupteigenschaft, dass es bei einer Änderung der Koordinaten für den Parametervektor invariant ist . Das heißt, die relative Wahrscheinlichkeit, die einem Volumen eines Wahrscheinlichkeitsraums unter Verwendung eines Jeffreys-Prior zugewiesen wird, ist unabhängig von der Parametrisierung, die verwendet wird, um den Jeffreys-Aprior zu definieren, dieselbe. Dies macht es für die Verwendung mit Skalenparametern besonders interessant .

Umparametrierung

Einparameterfall

Wenn und zwei mögliche Parametrisierungen eines statistischen Modells sind und eine stetig differenzierbare Funktion von ist , sagen wir, dass der Prior "invariant" unter einer Reparametrisierung ist, wenn

das heißt, wenn die Prioren und durch den üblichen Satz der Variablenänderung zusammenhängen .

Da sich die Fisher-Informationen unter Reparametrisierung als

definiert die Prioren als und gibt uns die gewünschte "Invarianz".

Fall mit mehreren Parametern

Analog zum einparametrigen Fall seien und seien zwei mögliche Parametrisierungen eines statistischen Modells mit einer stetig differenzierbaren Funktion von . Wir nennen den Prior "invariant" unter Reparametrisierung, wenn

wo ist die Jacobi-Matrix mit Einträgen

Da sich die Fisher-Informationsmatrix unter Umparametrierung als

wir haben das

und definiert somit die Prioren als und gibt uns die gewünschte "Invarianz".

Attribute

Aus praktischer und mathematischer Sicht besteht ein triftiger Grund, diesen nicht-informativen Prior anstelle anderer zu verwenden, wie sie durch einen Grenzwert in konjugierten Verteilungsfamilien erhalten werden, darin, dass die relative Wahrscheinlichkeit eines Volumens des Wahrscheinlichkeitsraums nicht abhängig ist von der Satz von Parametervariablen, der ausgewählt wird, um den Parameterraum zu beschreiben.

Manchmal kann der Jeffreys-Prior nicht normalisiert werden und ist daher ein unpassender Prior . Beispielsweise ist der Jeffreys-Prior für den Verteilungsmittelwert im Fall einer Gauß-Verteilung bekannter Varianz über die gesamte reelle Gerade gleichförmig .

Die Verwendung des Jeffreys-Prior verletzt die starke Version des Likelihood-Prinzips , die von vielen, aber keineswegs allen Statistikern akzeptiert wird. Bei Verwendung des Jeffreys-Prior hängen Schlussfolgerungen über nicht nur von der Wahrscheinlichkeit der beobachteten Daten als Funktion von ab , sondern auch vom Universum aller möglichen experimentellen Ergebnisse, wie durch das experimentelle Design bestimmt, da die Fisher-Informationen aus einer Erwartung berechnet werden über dem auserwählten Universum. Dementsprechend können der Jeffreys-Prior und damit die daraus gezogenen Schlussfolgerungen für zwei Experimente mit demselben Parameter unterschiedlich sein, selbst wenn die Likelihood-Funktionen für die beiden Experimente gleich sind – eine Verletzung des starken Likelihood-Prinzips.

Mindestlänge der Beschreibung

Beim statistischen Ansatz mit minimaler Beschreibungslänge besteht das Ziel darin, Daten so kompakt wie möglich zu beschreiben, wobei die Länge einer Beschreibung in Bits des verwendeten Codes gemessen wird. Für eine parametrisierte Familie von Verteilungen vergleicht man einen Code mit dem besten Code basierend auf einer der Verteilungen in der parametrisierten Familie. Das Hauptergebnis ist, dass in exponentiellen Familien asymptotisch für große Stichproben der Code basierend auf der Verteilung, die eine Mischung der Elemente in der exponentiellen Familie mit dem Jeffreys-Prior ist, optimal ist. Dieses Ergebnis gilt, wenn man die Parametermenge auf eine kompakte Teilmenge im Inneren des vollen Parameterraums beschränkt. Wenn der vollständige Parameter verwendet wird, sollte eine modifizierte Version des Ergebnisses verwendet werden.

Beispiele

Der Jeffreys-Prior für einen Parameter (oder eine Menge von Parametern) hängt vom statistischen Modell ab.

Gaußsche Verteilung mit Mittelwertparameter

Für die Gaußsche Verteilung des reellen Wertes

mit festen, die Jeffreys vor für den Mittelwert ist

Das heißt, der Jeffreys-Prior hängt nicht von ab ; es ist die unnormierte Gleichverteilung auf der reellen Geraden – die Verteilung, die 1 (oder eine andere feste Konstante) für alle Punkte beträgt. Dies ist ein uneigentliches Prior und ist, bis auf die Wahl der Konstanten, die eindeutige translationsinvariante Verteilung auf den reellen Zahlen (das Haar-Maß in Bezug auf die Addition von reellen Zahlen), entsprechend dem Mittelwert, der ein Maß für die Lage und die Translationsinvarianz ist entsprechend keine Angaben zum Standort.

Gaußsche Verteilung mit Standardabweichungsparameter

Für die Gaußsche Verteilung des reellen Wertes

mit festen, die Jeffreys vor für die Standardabweichung ist ,

Äquivalent ist der Jeffreys-Prior für die unnormierte Gleichverteilung auf der reellen Geraden, und daher wird diese Verteilung auch als logarithmisch vor . Ebenso ist das Jeffreys-Prior fürebenfalls einheitlich. Es ist die einzigartige (bis zu einem mehrfachen) vor (auf den positiven reellen Zahlen) aufweistdieSkala-invariant (dasHaar Maßnahmebezüglich der Multiplikation der positiven reellen Zahlen), die Standardabweichung entsprichtein Maß für seineSkalaund Skaleninvarianz entspricht keine Angaben zum Maßstab. Wie bei der Gleichverteilung auf den Realen handelt es sich um einenunechten Prior.

Poissonverteilung mit Ratenparameter

Für die Poisson-Verteilung der nicht-negativen ganzen Zahl gilt

die Jeffreys-Prior für den Geschwindigkeitsparameter ist

Äquivalent ist der Jeffreys-Prior für die unnormierte Gleichverteilung auf der nicht-negativen reellen Geraden.

Bernoulli-Prozess

Für eine Münze, die mit Wahrscheinlichkeit "Kopf" und mit Wahrscheinlichkeit "Zahl" ist , beträgt die Wahrscheinlichkeit für eine gegebene Münze . Die Jeffreys-Prior für den Parameter ist

Dies ist die Arkussinus-Verteilung und ist eine Beta-Verteilung mit . Außerdem, wenn dann

Das heißt, der Jeffreys-Prior für ist im Intervall gleichförmig . Äquivalent ist auf dem ganzen Kreis gleichförmig .

N- seitiger Würfel mit verzerrten Wahrscheinlichkeiten

In ähnlicher Weise ist für einen Wurf eines einseitigen Würfels mit Ergebniswahrscheinlichkeiten , die jeweils nicht negativ und befriedigend sind , der Jeffreys-Prior für die Dirichlet-Verteilung, wobei alle (Alpha-)Parameter auf die Hälfte gesetzt sind. Dies bedeutet, dass für jedes mögliche Ergebnis eine Pseudozählung von einer Hälfte verwendet wird.

Äquivalent, wenn wir für jedes schreiben , dann ist der Jeffreys-Prior für auf der ( N  − 1)-dimensionalen Einheitskugel gleichförmig ( dh er ist auf der Oberfläche einer N- dimensionalen Einheitskugel gleichförmig ).

Verweise

Weiterlesen