Genauer Test - Exact test

In der Statistik ist ein exakter (Signifikanz-)Test ein Test, bei dem, wenn die Nullhypothese wahr ist, alle Annahmen erfüllt sind , auf denen die Ableitung der Verteilung der Teststatistik basiert. Die Verwendung eines exakten Tests bietet einen Signifikanztest , der die Fehlerrate Typ I des Tests ( ) auf dem gewünschten Signifikanzniveau des Tests hält. Zum Beispiel wird ein exakter Test auf dem Signifikanzniveau von meistens abgelehnt , wenn der Test über viele Stichproben wiederholt wird, bei denen die Nullhypothese wahr ist . Dies steht im Gegensatz zu einem Näherungstest, bei dem die gewünschte Typ-I-Fehlerquote nur näherungsweise eingehalten wird (dh der Test kann mehr als 5 % der Zeit zurückweisen), während diese Näherung so nah wie gewünscht erfolgen kann, indem die Stichprobe Größe groß genug.

Exakte Tests, die auf diskreten Teststatistiken basieren, können konservative Tests sein, dh ihre tatsächliche Ablehnungsrate liegt unter dem nominellen Signifikanzniveau . Dies ist zum Beispiel beim exakten Test von Fisher und auch bei seiner leistungsstärkeren Alternative, dem Test von Boschloo , der Fall . Wenn die Teststatistik kontinuierlich ist, erreicht sie genau das Signifikanzniveau.

Parametrische Tests , wie zum Beispiel diejenigen , die in genauen Statistiken , sind genaue Tests , wenn die Parameter Annahmen vollständig erfüllt sind, aber in der Praxis der Verwendung des Begriffs genaue (Bedeutung) Test für diese Tests reserviert ist, die nicht ruhen auf parametrische Annahmen - nicht parametrische Tests. In der Praxis verwenden die meisten Implementierungen nichtparametrischer Testsoftware jedoch asymptotische Algorithmen zum Erhalten des Signifikanzwerts, was die Implementierung des Tests ungenau macht.

Wenn das Ergebnis einer statistischen Analyse also als „exakter Test“ oder „exakter p-Wert “ bezeichnet wird, bedeutet dies, dass der Test ohne parametrische Annahmen definiert und ohne Verwendung von Näherungsalgorithmen ausgewertet wird. Im Prinzip könnte es aber auch bedeuten, dass ein parametrischer Test in einer Situation durchgeführt wurde, in der alle parametrischen Annahmen vollständig erfüllt sind, aber in den meisten Fällen ist es unmöglich, dies in einer realen Situation vollständig zu beweisen. Ausnahmen, wenn sicher ist, dass parametrische Tests exakt sind, umfassen Tests, die auf Binomial- oder Poisson-Verteilungen basieren. Manchmal wird Permutationstest als Synonym für Exakter Test verwendet, aber obwohl alle Permutationstests exakte Tests sind, sind nicht alle exakten Tests Permutationstests.

Formulierung

Die Grundgleichung, die exakten Tests zugrunde liegt, lautet

wo:

  • x ist das tatsächlich beobachtete Ergebnis,
  • Pr( y ) ist die Wahrscheinlichkeit unter der Nullhypothese eines potenziell beobachteten Ergebnisses y ,
  • T ( y ) ist der Wert der Teststatistik für ein Ergebnis y , wobei größere Werte von T Fälle darstellen, die fiktiv größere Abweichungen von der Nullhypothese darstellen,

und wobei sich die Summe über alle Ergebnisse y (einschließlich des beobachteten) erstreckt, die den gleichen Wert der für die beobachtete Stichprobe x erhaltenen Teststatistik oder einen größeren haben.

Beispiel: Chi-Quadrat-Test nach Pearson im Vergleich zu einem exakten Test

Ein einfaches Beispiel für den Anlass für dieses Konzept kann man sehen, wenn man beobachtet, dass der Chi-Quadrat-Test nach Pearson ein Näherungstest ist. Angenommen, der Chi-Quadrat-Test von Pearson wird verwendet, um festzustellen, ob ein sechsseitiger Würfel "fair" ist, dh jedes der sechs Ergebnisse gleich oft ergibt. Wenn der Würfel n- mal geworfen wird, "erwartet" man, jedes Ergebnis n /6-mal zu sehen. Die Teststatistik ist

wobei X k die Häufigkeit ist, mit der das Ergebnis k beobachtet wird. Wenn die Nullhypothese der "Fairness" wahr ist, kann die Wahrscheinlichkeitsverteilung der Teststatistik der Chi-Quadrat-Verteilung mit 5 Freiheitsgraden beliebig nahe gebracht werden, indem die Stichprobengröße n groß genug gewählt wird. Wenn n jedoch klein ist, sind die auf Chi-Quadrat-Verteilungen basierenden Wahrscheinlichkeiten möglicherweise keine sehr engen Näherungen. Das Ermitteln der genauen Wahrscheinlichkeit, dass diese Teststatistik einen bestimmten Wert überschreitet, erfordert dann eine kombinatorische Aufzählung aller Ergebnisse des Experiments, die zu einem so großen Wert der Teststatistik führen. Darüber hinaus wird fraglich, ob dieselbe Teststatistik verwendet werden sollte. Ein Likelihood-Ratio-Test könnte als leistungsfähiger bevorzugt werden , und die Teststatistik ist möglicherweise keine monotone Funktion der obigen.

Beispiel: Fishers exakter Test

Fishers exakter Test , der auf der Arbeit von Ronald Fisher und EJG Pitman in den 1930er Jahren basiert, ist genau, weil die Stichprobenverteilung (bedingt durch die Randwerte) genau bekannt ist. Vergleichen Sie den Chi-Quadrat-Test von Pearson , der (obwohl er dieselbe Null testet) nicht genau ist, da die Verteilung der Teststatistik nur asymptotisch korrekt ist.

Siehe auch

Verweise

  • Ronald Fisher (1954) Statistische Methoden für Forscher . Oliver und Boyd.
  • Mehta, CR ; Patel, N. R. (1998). „Exakte Inferenz für kategoriale Daten“. In P. Armitage und T. Colton, Hrsg., Encyclopedia of Biostatistics , Chichester: John Wiley, S. 1411-1422. unveröffentlichter Vordruck
  • Corcoran, CD; Senchaudhuri, P.; Mehta, CR; Patel, N. R. (2005). „Exakte Inferenz für kategoriale Daten“. Enzyklopädie der Biostatistik . doi : 10.1002/0470011815.b2a10019 . ISBN 047084907X.