Teststatistik - Test statistic

Eine Teststatistik ist eine Statistik (eine aus der Stichprobe abgeleitete Größe ), die beim Testen statistischer Hypothesen verwendet wird . Ein Hypothesentest wird normalerweise in Form einer Teststatistik spezifiziert, die als numerische Zusammenfassung eines Datensatzes betrachtet wird, der die Daten auf einen Wert reduziert, der zur Durchführung des Hypothesentests verwendet werden kann. Im Allgemeinen wird eine Teststatistik so ausgewählt oder definiert, dass innerhalb der beobachteten Daten Verhaltensweisen quantifiziert werden, die die Nullhypothese von der Alternativhypothese unterscheiden würden , wenn eine solche Alternative vorgeschrieben ist, oder die die Nullhypothese charakterisieren würde, wenn keine explizit genannte Alternativhypothese.

Eine wichtige Eigenschaft einer Teststatistik besteht darin, dass ihre Stichprobenverteilung unter der Nullhypothese entweder genau oder näherungsweise berechenbar sein muss, was die Berechnung von p- Werten ermöglicht . Eine Teststatistik weist einige der gleichen Eigenschaften einer deskriptiven Statistik auf , und viele Statistiken können sowohl als Teststatistik als auch als deskriptive Statistik verwendet werden. Eine Teststatistik ist jedoch speziell für statistische Tests gedacht, während die Hauptqualität einer deskriptiven Statistik darin besteht, dass sie leicht zu interpretieren ist. Einige informative deskriptive Statistiken, wie der Stichprobenumfang , sind keine guten Teststatistiken, da es schwierig ist, ihre Stichprobenverteilung zu bestimmen.

Zwei weit verbreitete Teststatistiken sind die t-Statistik und der F-Test .

Beispiel

Angenommen, die Aufgabe besteht darin, zu testen, ob eine Münze fair ist (dh die gleiche Wahrscheinlichkeit hat, Kopf oder Zahl zu produzieren). Wird die Münze 100 Mal geworfen und die Ergebnisse aufgezeichnet, können die Rohdaten als Folge von 100 Kopf und Zahl dargestellt werden. Wenn Interesse an der marginalen Wahrscheinlichkeit besteht, einen Schwanz zu erhalten, muss nur die Anzahl T der 100 Flips, die einen Schwanz erzeugt haben, aufgezeichnet werden. Aber T kann auch als Teststatistik in einem von zwei Arten verwendet werden:

die genaue Stichprobenverteilung von T unter der Nullhypothese ist die Binomialverteilung mit den Parametern 0,5 und 100.
der Wert von T kann mit seinem Erwartungswert unter der Nullhypothese von 50 verglichen werden, und da der Stichprobenumfang groß ist, kann eine Normalverteilung als Annäherung an die Stichprobenverteilung entweder für T oder für die überarbeitete Teststatistik T verwendet werden − 50.

Unter Verwendung einer dieser Stichprobenverteilungen ist es möglich, für die Nullhypothese, dass die Münze fair ist, entweder einen einseitigen oder einen zweiseitigen p-Wert zu berechnen . Beachten Sie, dass die Teststatistik in diesem Fall einen Satz von 100 Zahlen auf eine einzige numerische Zusammenfassung reduziert, die zum Testen verwendet werden kann.

Allgemeine Teststatistiken

Tests mit einer Stichprobe sind geeignet, wenn eine Stichprobe mit der Grundgesamtheit einer Hypothese verglichen wird. Die Populationsmerkmale sind aus der Theorie bekannt oder werden aus der Population berechnet.

Zweiprobentests sind geeignet, um zwei Proben zu vergleichen, typischerweise Versuchs- und Kontrollproben aus einem wissenschaftlich kontrollierten Experiment.

Gepaarte Tests eignen sich zum Vergleichen von zwei Stichproben, bei denen es unmöglich ist, wichtige Variablen zu kontrollieren. Anstatt zwei Sätze zu vergleichen, werden Mitglieder zwischen Stichproben gepaart, sodass die Differenz zwischen den Mitgliedern zur Stichprobe wird. Typischerweise wird dann der Mittelwert der Differenzen mit Null verglichen. Das übliche Beispielszenario dafür, wann ein paarweiser Differenztest angemessen ist, ist, wenn auf eine einzelne Gruppe von Testpersonen etwas angewendet wird und der Test auf einen Effekt prüfen soll.

Z-Tests eignen sich zum Vergleich von Mittelwerten unter strengen Bedingungen hinsichtlich Normalität und bekannter Standardabweichung.

Ein t- Test ist geeignet, um Mittelwerte unter entspannten Bedingungen zu vergleichen (weniger wird angenommen).

Proportionstests sind analog zu Mittelwerttests (der 50%-Anteil).

Chi-Quadrat-Tests verwenden dieselben Berechnungen und dieselbe Wahrscheinlichkeitsverteilung für verschiedene Anwendungen:

Chi-Quadrat- Varianztests werden verwendet, um zu bestimmen, ob eine normale Population eine bestimmte Varianz aufweist. Die Nullhypothese ist, dass dies der Fall ist.
Chi-Quadrat-Tests der Unabhängigkeit werden verwendet, um zu entscheiden, ob zwei Variablen assoziiert oder unabhängig sind. Die Variablen sind eher kategorial als numerisch. Es kann verwendet werden, um zu entscheiden, ob Linkshändigkeit mit der Körpergröße korreliert (oder nicht). Die Nullhypothese ist, dass die Variablen unabhängig sind. Die in der Berechnung verwendeten Zahlen sind die beobachteten und erwarteten Häufigkeiten (aus Kontingenztafeln ).
Chi-Quadrat-Anpassungstests werden verwendet, um die Angemessenheit von Kurven, die an Daten angepasst sind, zu bestimmen. Die Nullhypothese ist, dass die Kurvenanpassung ausreichend ist. Es ist üblich, Kurvenformen zu bestimmen, um den mittleren quadratischen Fehler zu minimieren, daher ist es angemessen, dass die Berechnung der Anpassungsgüte die quadrierten Fehler summiert.

F-Tests (Varianzanalyse, ANOVA) werden häufig verwendet, um zu entscheiden, ob Gruppierungen von Daten nach Kategorien sinnvoll sind. Wenn die Varianz der Testergebnisse von Linkshändern in einer Klasse viel geringer ist als die Varianz der gesamten Klasse, kann es sinnvoll sein, Linkshänder als Gruppe zu untersuchen. Die Nullhypothese lautet, dass zwei Varianzen gleich sind – die vorgeschlagene Gruppierung ist also nicht aussagekräftig.

In der folgenden Tabelle sind die verwendeten Symbole am Ende der Tabelle definiert. Viele weitere Tests finden Sie in anderen Artikeln . Es liegen Nachweise vor, dass die Teststatistiken angemessen sind.

Name

Formel

Annahmen oder Anmerkungen

Z-Test bei einer Stichprobe

z={\frac {{\overline {x}}-\mu_{0}}{({\sigma}/{\sqrt {n}})}}

(Normalbevölkerung oder n groß) und σ bekannt.

( z ist der Abstand vom Mittelwert in Bezug auf die Standardabweichung des Mittelwerts ). Für Nicht-Normalverteilungen ist es möglich, einen minimalen Anteil einer Grundgesamtheit zu berechnen, der innerhalb von k Standardabweichungen für jedes k liegt (siehe: Chebyshev-Ungleichung ).

Z-Test bei zwei Stichproben

z={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma_{2}^{2}}{n_{2}}}}}}

Normalpopulation und unabhängige Beobachtungen sowie σ ₁ und σ ₂ sind bekannt

t- Test bei einer Stichprobe

t={\frac {{\overline {x}}-\mu_{0}}{(s/{\sqrt {n}})}},

$df=n-1\$

(Normale Population oder n groß) und unbekannt

\sigma

Gepaarter t- Test

t={\frac {{\overline {d}}-d_{0}}{(s_{d}/{\sqrt {n}})}},

$df=n-1\$

(Normalpopulation von Differenzen oder n groß) und unbekannt

\sigma

Gepoolter t- Test bei zwei Stichproben , gleiche Varianzen

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{s_{p}{\sqrt {{ \frac{1}{n_{1}}}+{\frac{1}{n_{2}}}}}}},

$s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}} {n_{1}+n_{2}-2}},$
$df=n_{1}+n_{2}-2\$

(Normalpopulationen oder n ₁ + n ₂ > 40) und unabhängige Beobachtungen und σ ₁ = σ ₂ unbekannt

Zwei-Probe unpooled t -Test, ungleiche Varianzen ( Welche t -Test )

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {s_{ 1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}},

$df={\frac {\left({\frac {s_{1}^{2}}{n_{1}}}}+{\frac {s_{2}^{2}}{n_{2 }}}\right)^{2}}{{\frac {\left({\frac {s_{1}^{2}}{n_{1}}}\right)^{2}}{n_{ 1}-1}}+{\frac {\left({\frac{s_{2}^{2}}{n_{2}}}\right)^{2}}{n_{2}-1} }}}$

(Normalpopulationen oder n ₁ + n ₂ > 40) und unabhängige Beobachtungen und σ ₁ ≠ σ ₂ beide unbekannt

Ein-Proportional-Z-Test

z={\frac {{\hat {p}}-p_{0}}{\sqrt {p_{0}(1-p_{0})}}}{\sqrt {n}}

n ^.p ₀ > 10 und n (1 − p ₀ ) > 10 und es handelt sich um eine SRS (Simple Random Sample), siehe Anmerkungen .

Zwei-Proportional-Z-Test, gepoolt für

H_{0}\colon p_{1}=p_{2}

z={\frac {({\hat{p}}_{1}-{\hat{p}}_{2})}{\sqrt {{\hat{p}}(1-{ \hat{p}})({\frac{1}{n_{1}}}+{\frac{1}{n_{2}}})}}}

${\hat {p}}={\frac {x_{1}+x_{2}}{n_{1}+n_{2}}}$

n ₁ p ₁ > 5 und n ₁ (1 − p ₁ ) > 5 und n ₂ p ₂ > 5 und n ₂ (1 − p ₂ ) > 5 und unabhängige Beobachtungen, siehe Anmerkungen .

Zwei-Proportional-Z-Test, ungepoolt für

|d_{0}|>0

z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})-d_{0}}{\sqrt {{\frac {{\ Hut {p}}_{1}(1-{\hat{p}}_{1})}{n_{1}}}+{\frac {{\hat{p}}_{2}(1 -{\hat{p}}_{2})}{n_{2}}}}}}

n ₁ p ₁ > 5 und n ₁ (1 − p ₁ ) > 5 und n ₂ p ₂ > 5 und n ₂ (1 − p ₂ ) > 5 und unabhängige Beobachtungen, siehe Anmerkungen .

Chi-Quadrat-Test auf Varianz

\chi^{2}=(n-1){\frac {s^{2}}{\sigma_{0}^{2}}}

df = n-1

• Normale Bevölkerung

Chi-Quadrat-Test auf Passgenauigkeit

\chi^{2}=\sum ^{k}{\frac {({\text{beobachtet}}-{\text{erwartet}})^{2}}{\text{erwartet}}}

df = k − 1 − # Parameter geschätzt , und einer davon muss gelten.

• Alle erwarteten Zählungen sind mindestens 5.

• Alle erwarteten Zählungen sind > 1 und nicht mehr als 20 % der erwarteten Zählungen sind kleiner als 5

Zweistichproben-F-Test auf Varianzgleichheit

F={\frac {s_{1}^{2}}{s_{2}^{2}}}}

Normale Populationen
Ordnen Sie so an und lehnen Sie H ₀ für ab

s_{1}^{2}\geq s_{2}^{2}

F>F(\alpha/2,n_{1}-1,n_{2}-1)

Regression t -Test von

H_{0}\colon R^{2}=0.

t={\sqrt {\frac {R^{2}(nk-1^{*})}{1-R^{2}}}}

H ₀ ablehnen für * 1 subtrahieren für Schnittpunkt; k Terme enthalten unabhängige Variablen.

t>t(\alpha/2,nk-1^{*})

Im Allgemeinen zeigt der Index 0 einen Wert an, der aus der Nullhypothese , H ₀ , entnommen wurde und der so oft wie möglich beim Aufbau seiner Teststatistik verwendet werden sollte. ... Definitionen anderer Symbole:

${\displaystyle\alpha}$ , die Wahrscheinlichkeit eines Fehlers vom Typ I (Ablehnung einer Nullhypothese, wenn sie tatsächlich wahr ist)
$n$ = Stichprobengröße
$n_{1}$ = Mustergröße 1
$n_{2}$ = Stichprobe 2 Größe
${\overline {x}}$ = Stichprobenmittelwert
$\mu_{0}$ = hypothetischer Mittelwert der Grundgesamtheit
$\mu_{1}$ = Bevölkerung 1 Mittelwert
$\mu_{2}$ = Bevölkerung 2 Mittelwert
$\sigma$ = Standardabweichung der Grundgesamtheit
$\sigma ^{2}$ = Populationsvarianz
$s$ = Standardabweichung der Stichprobe
$\sum ^{k}$ = Summe (von k Zahlen)