Schüler- t- Test -Student's t-test

Die t - Test ist ein beliebiger statistischer Hypothesentest , bei dem die Teststatistik eines folgt Studenten t -Verteilung unter der Nullhypothese .

Ein t- Test wird am häufigsten angewendet, wenn die Teststatistik einer Normalverteilung folgen würde, wenn der Wert eines Skalierungsterms in der Teststatistik bekannt wäre. Wenn der Skalierungsterm unbekannt ist und durch eine auf den Daten basierende Schätzung ersetzt wird , folgt die Teststatistik (unter bestimmten Bedingungen) einer Student- t- Verteilung. Der t- Test kann beispielsweise verwendet werden, um festzustellen, ob sich die Mittelwerte zweier Datensätze signifikant voneinander unterscheiden.

Geschichte

William Sealy Gosset , der die „ t- Statistik“ entwickelt und unter dem Pseudonym „Student“ veröffentlicht hat.

Der Begriff „ t- Statistik“ wird von „Hypothesenteststatistik“ abgekürzt. In der Statistik wurde die t-Verteilung erstmals 1876 ​​von Helmert und Lüroth als Posterior-Verteilung abgeleitet . Die t-Verteilung erschien auch in einer allgemeineren Form als Pearson-Typ- IV- Verteilung in Karl Pearsons Veröffentlichung von 1895. Die T-Distribution, auch Student's T Distribution genannt, hat ihren Namen jedoch von William Sealy Gosset , der sie 1908 erstmals in englischer Sprache in der wissenschaftlichen Zeitschrift Biometrika unter seinem Pseudonym "Student" veröffentlichte, da sein Arbeitgeber es vorzog, dass seine Mitarbeiter bei der Veröffentlichung Pseudonyme verwendeten wissenschaftliche Arbeiten statt ihres richtigen Namens, deshalb benutzte er den Namen "Student", um seine Identität zu verbergen. Gosset arbeitete bei der Guinness-Brauerei in Dublin , Irland , und interessierte sich für die Probleme kleiner Proben – zum Beispiel die chemischen Eigenschaften von Gerste bei kleinen Probengrößen. Daher ist eine zweite Version der Etymologie des Begriffs Student, dass Guinness nicht wollte, dass seine Konkurrenten wissen, dass sie den t-Test verwenden, um die Qualität des Rohmaterials zu bestimmen (siehe Student's t- Verteilung für eine detaillierte Geschichte dieses Pseudonyms, was nicht mit dem wörtlichen Semester student zu verwechseln ist ). Obwohl es William Gosset war, nach dem der Begriff "Student" geschrieben wurde, war es tatsächlich durch die Arbeit von Ronald Fisher, dass die Verteilung als "Student's Distribution" und "Student's t-Test" bekannt wurde.

Gosset war aufgrund der Politik von Claude Guinness eingestellt worden , die besten Absolventen aus Oxford und Cambridge zu rekrutieren , um Biochemie und Statistik auf Guinness's industrielle Prozesse anzuwenden . Gosset hat den t- Test als wirtschaftliche Methode zur Überwachung der Stout- Qualität entwickelt . Die t- Test-Arbeit wurde bei der Zeitschrift Bioometrika eingereicht und akzeptiert und 1908 veröffentlicht.

Guinness hatte eine Politik, technisches Personal zum Studium beurlauben zu lassen (sogenannter "Studienurlaub"), den Gosset während der ersten beiden Semester des akademischen Jahres 1906-1907 in Professor Karl Pearsons Biometric Laboratory am University College London nutzte . Die Identität von Gosset war dann anderen Statistikern und Chefredakteur Karl Pearson bekannt.

Verwendet

Zu den am häufigsten verwendeten t- Tests gehören:

  • Ein Standorttest bei einer Stichprobe, ob der Mittelwert einer Grundgesamtheit einen Wert hat, der in einer Nullhypothese angegeben ist .
  • Ein Standorttest mit zwei Stichproben der Nullhypothese, sodass die Mittelwerte von zwei Populationen gleich sind. Alle diese Tests werden normalerweise Student- t- Tests genannt , obwohl dieser Name streng genommen nur verwendet werden sollte, wenn auch die Varianzen der beiden Populationen als gleich angenommen werden; die Form des Tests verwendet wird, wenn diese Annahme fällt gelassen wird manchmal genannt Welche t -Test . Diese Tests werden oft als t- Tests für ungepaarte oder unabhängige Stichproben bezeichnet, da sie typischerweise angewendet werden, wenn die statistischen Einheiten , die den beiden verglichenen Stichproben zugrunde liegen, sich nicht überlappen.

Annahmen

Die meisten Teststatistiken haben die Form t = Z/S, wobei Z und s Funktionen der Daten sind.

Z kann gegenüber der Alternativhypothese empfindlich sein (dh sein Betrag ist tendenziell größer, wenn die Alternativhypothese wahr ist), wohingegen s ein Skalierungsparameter ist , der es ermöglicht, die Verteilung von t zu bestimmen.

Als Beispiel im Einstichproben- t- Test

Dabei ist X der Stichprobenmittelwert aus einer Stichprobe X 1 , X 2 , …, X n , der Größe n , s ist der Standardfehler des Mittelwerts , ist die Schätzung der Standardabweichung der Grundgesamtheit und μ ist der Grundgesamtheitsmittelwert .

Die Annahmen, die einem t- Test in der einfachsten Form oben zugrunde liegen, sind:

  • X folgt einer Normalverteilung mit Mittelwert μ und Varianzσ 2/n
  • s 2 ( n  − 1)/ σ 2 folgt einer χ 2 -Verteilung mit n  − 1 Freiheitsgraden . Diese Annahme ist erfüllt, wenn die zur Schätzung von s 2 verwendeten Beobachtungenaus einer Normalverteilung (und iid für jede Gruppe) stammen.
  • Z und s sind unabhängig .

Beim t- Test, der die Mittelwerte zweier unabhängiger Stichproben vergleicht, sollten die folgenden Annahmen erfüllt sein:

  • Die Mittelwerte der beiden verglichenen Populationen sollten Normalverteilungen folgen . Unter schwachen Annahmen folgt dies in großen Stichproben aus dem zentralen Grenzwertsatz , selbst wenn die Verteilung der Beobachtungen in jeder Gruppe nicht normal ist.
  • Studenten ursprüngliche Definition des Falls mit t -Test, die beiden Populationen verglichen werden , um die gleiche Varianz (prüfbar unter Verwendung sollte F -Test , Levene-Test , Bartlett-Test oder den Brown-Forsythe - Test oder bewertbar grafisch mit einem Q-Q Grundstück ). Wenn die Stichprobengrößen in den beiden verglichenen Gruppen gleich sind, ist der ursprüngliche t- Test nach Student sehr robust gegenüber dem Vorhandensein ungleicher Varianzen. Der t- Test von Welch ist unempfindlich gegenüber Gleichheit der Varianzen, unabhängig davon, ob die Stichprobengrößen ähnlich sind.
  • Die zur Durchführung des Tests verwendeten Daten sollten entweder unabhängig von den beiden zu vergleichenden Populationen entnommen oder vollständig gepaart werden. Dies ist im Allgemeinen nicht anhand der Daten prüfbar, aber wenn bekannt ist, dass die Daten abhängig sind (zB durch Testdesign gepaart), muss ein abhängiger Test angewendet werden. Bei teilweise gepaarten Daten können die klassischen unabhängigen t- Tests ungültige Ergebnisse liefern, da die Teststatistik möglicherweise keiner t- Verteilung folgt , während der abhängige t- Test suboptimal ist, da er die ungepaarten Daten verwirft.

Die meisten t- Tests mit zwei Stichproben sind robust gegenüber allen bis auf große Abweichungen von den Annahmen.

Aus Genauigkeitsgründen erfordern der t- Test und der Z- Test Normalität der Stichprobenmittelwerte, und der t- Test erfordert zusätzlich, dass die Stichprobenvarianz einer skalierten χ 2 -Verteilung folgt und dass Stichprobenmittelwert und Stichprobenvarianz statistisch unabhängig sind . Die Normalität der einzelnen Datenwerte ist nicht erforderlich, wenn diese Bedingungen erfüllt sind. Nach dem zentralen Grenzwertsatz werden Stichprobenmittelwerte mäßig großer Stichproben oft durch eine Normalverteilung gut approximiert, selbst wenn die Daten nicht normalverteilt sind. Bei nicht-normalen Daten kann die Verteilung der Stichprobenvarianz erheblich von einer χ 2 -Verteilung abweichen . Wenn die Stichprobe jedoch groß ist, impliziert der Satz von Slutsky , dass die Verteilung der Stichprobenvarianz wenig Einfluss auf die Verteilung der Teststatistik hat.

Ungepaarte und gepaarte t- Tests mit zwei Stichproben

Fehler vom Typ I von ungepaarten und gepaarten t- Tests mit zwei Stichproben als Funktion der Korrelation. Die simulierten Zufallszahlen stammen aus einer bivariaten Normalverteilung mit einer Varianz von 1. Das Signifikanzniveau beträgt 5 % und die Fallzahl 60.
Trennschärfe von ungepaarten und gepaarten t- Tests bei zwei Stichproben als Funktion der Korrelation. Die simulierten Zufallszahlen stammen aus einer bivariaten Normalverteilung mit einer Varianz von 1 und einer Abweichung vom Erwartungswert von 0,4. Das Signifikanzniveau beträgt 5 % und die Fallzahl 60.

Zwei-Stichproben- t- Tests für einen Unterschied im Mittelwert beinhalten unabhängige Stichproben (ungepaarte Stichproben) oder gepaarte Stichproben. Gepaarte t -Tests sind eine Form von Sperr und haben eine größere Leistung (Wahrscheinlichkeit einen Typ - II - Fehler zu vermeiden, das auch als falsch negativ bekannt) als ungepaarte Tests , wenn die paarigen Einheiten ähnlich sind mit Bezug auf „Störfaktoren“ , die unabhängig sind von Mitgliedschaft in den beiden verglichenen Gruppen. In einem anderen Kontext können gepaarte t- Tests verwendet werden, um die Auswirkungen von Störfaktoren in einer Beobachtungsstudie zu reduzieren .

Unabhängige (ungepaarte) Samples

Der t- Test für unabhängige Stichproben wird verwendet, wenn zwei separate Sätze unabhängiger und identisch verteilter Stichproben erhalten werden, von denen einer aus jeder der beiden zu vergleichenden Populationen verglichen wird. Angenommen, wir bewerten die Wirkung einer medizinischen Behandlung, nehmen 100 Probanden in unsere Studie auf und weisen dann nach dem Zufallsprinzip 50 Probanden der Behandlungsgruppe und 50 Probanden der Kontrollgruppe zu. In diesem Fall haben wir zwei unabhängige Stichproben und würden die ungepaarte Form des t- Tests verwenden.

Gepaarte Proben

Gepaarte Stichproben t- Tests bestehen typischerweise aus einer Stichprobe von übereinstimmenden Paaren ähnlicher Einheiten oder einer Gruppe von Einheiten, die zweimal getestet wurde (ein " t- Test mit wiederholten Messungen").

Ein typisches Beispiel für den t- Test mit wiederholten Messungen wäre, wenn Probanden vor einer Behandlung, beispielsweise auf Bluthochdruck, getestet werden und dieselben Probanden nach der Behandlung mit einem blutdrucksenkenden Medikament erneut getestet werden. Durch den Vergleich der Patientenzahlen vor und nach der Behandlung verwenden wir jeden Patienten effektiv als eigene Kontrolle. Auf diese Weise kann die korrekte Ablehnung der Nullhypothese (hier: kein Unterschied durch die Behandlung) viel wahrscheinlicher werden, wobei die statistische Power allein dadurch steigt, dass die zufällige interpatientenvariation nun eliminiert wurde. Die Erhöhung der statistischen Aussagekraft hat jedoch ihren Preis: Es sind mehr Tests erforderlich, wobei jedes Subjekt zweimal getestet werden muss. Da die Hälfte der Stichprobe nun von der anderen Hälfte abhängt, hat die gepaarte Version des Student- t- Tests nurn/2− 1 Freiheitsgrade (wobei n die Gesamtzahl der Beobachtungen ist). Aus Paaren werden einzelne Testeinheiten, und die Probe muss verdoppelt werden, um die gleiche Anzahl an Freiheitsgraden zu erreichen. Normalerweise gibt es n − 1 Freiheitsgrade (wobei n die Gesamtzahl der Beobachtungen ist).

Ein t- Test für gepaarte Stichproben auf der Grundlage einer "abgestimmten Stichprobe" ergibt sich aus einer ungepaarten Stichprobe, die anschließend verwendet wird, um eine gepaarte Stichprobe zu bilden, indem zusätzliche Variablen verwendet werden, die zusammen mit der interessierenden Variablen gemessen wurden. Der Abgleich erfolgt durch die Identifizierung von Wertepaaren bestehend aus einer Beobachtung aus jeder der beiden Stichproben, wobei das Paar in Bezug auf andere Messgrößen ähnlich ist. Dieser Ansatz wird manchmal in Beobachtungsstudien verwendet, um die Auswirkungen von Störfaktoren zu reduzieren oder zu eliminieren.

t- Tests mit gepaarten Stichproben werden oft als " t- Tests mit abhängigen Stichproben " bezeichnet.

Berechnungen

Im Folgenden werden explizite Ausdrücke angegeben, mit denen verschiedene t- Tests durchgeführt werden können. In jedem Fall wird die Formel für eine Teststatistik angegeben, die einer t- Verteilung unter der Nullhypothese entweder genau folgt oder ihr nahe kommt. Auch die jeweils passenden Freiheitsgrade sind angegeben. Jede dieser Statistiken kann verwendet werden, um entweder einen einseitigen oder einen zweiseitigen Test durchzuführen .

Sobald der t - Wert und Freiheitsgrade bestimmt sind, ein p - Wert gefunden einen wird mit Wertetabelle von Student t -Verteilung . Wenn der berechnete p- Wert unter dem für die statistische Signifikanz gewählten Schwellenwert liegt (normalerweise das 0,10-, das 0,05- oder das 0,01-Niveau), wird die Nullhypothese zugunsten der Alternativhypothese verworfen.

t- Test bei einer Stichprobe

Beim Testen der Nullhypothese, dass der Mittelwert der Grundgesamtheit gleich einem bestimmten Wert μ 0 ist , verwendet man die Statistik

Dabei ist der Stichprobenmittelwert, s die Stichprobenstandardabweichung und n der Stichprobenumfang. Die in diesem Test verwendeten Freiheitsgrade sind n − 1 . Obwohl die Elternpopulation nicht normalverteilt sein muss, wird die Verteilung der Stichprobenmittelwerte als normal angenommen.

Nach dem zentralen Grenzwertsatz ist N(0;1) ungefähr normal , wenn die Beobachtungen unabhängig sind und das zweite Moment existiert .

Steigung einer Regressionsgeraden

Angenommen, man passt zum Modell

wobei x bekannt ist, α und β unbekannt sind, ε eine normalverteilte Zufallsvariable mit Mittelwert 0 und unbekannter Varianz σ 2 ist und Y das interessierende Ergebnis ist. Wir wollen die Nullhypothese testen, dass die Steigung β gleich einem bestimmten Wert β 0 ist (oft als 0 angenommen, in diesem Fall lautet die Nullhypothese, dass x und y nicht korreliert sind).

Lassen

Dann

hat eine t- Verteilung mit n − 2 Freiheitsgraden, wenn die Nullhypothese wahr ist. Der Standardfehler des Steigungskoeffizienten :

kann in Form der Residuen geschrieben werden. Lassen

Dann ist t Score gegeben durch:

Eine andere Möglichkeit, den t- Wert zu bestimmen, ist:

wobei r der Korrelationskoeffizient nach Pearson ist .

Der t- Score, Achsenabschnitt kann aus dem t- Score, Steigung bestimmt werden :

wobei s x 2 die Stichprobenvarianz ist.

Unabhängiger t- Test bei zwei Stichproben

Gleiche Stichprobengrößen und Varianz

Bei zwei Gruppen (1, 2) ist dieser Test nur anwendbar, wenn:

  • die beiden Stichprobengrößen (d. h. die Anzahl n der Teilnehmer jeder Gruppe) sind gleich;
  • es kann davon ausgegangen werden, dass die beiden Verteilungen die gleiche Varianz aufweisen;

Verstöße gegen diese Annahmen werden im Folgenden erörtert.

Die t- Statistik zum Testen, ob die Mittelwerte unterschiedlich sind, kann wie folgt berechnet werden:

wo

Hier ist s p die gepoolte Standardabweichung für n = n 1 = n 2 und s 2
x 1
und s 2
x 2
sind die unverzerrten Schätzer der Varianzen der beiden Stichproben. Der Nenner von t ist der Standardfehler der Differenz zwischen zwei Mittelwerten.

Für Signifikanztests sind die Freiheitsgrade für diesen Test 2 n − 2, wobei n die Anzahl der Teilnehmer in jeder Gruppe ist.

Gleiche oder ungleiche Stichprobengrößen, ähnliche Varianzen (1/2 < s X 1/s X 2 < 2)

Dieser Test wird nur verwendet, wenn davon ausgegangen werden kann, dass die beiden Verteilungen die gleiche Varianz aufweisen. (Wenn diese Annahme verletzt wird, siehe unten.) Die vorherigen Formeln sind ein Sonderfall der folgenden Formeln, man erhält sie wieder, wenn beide Stichproben gleich groß sind: n = n 1 = n 2 .

Die t- Statistik zum Testen, ob die Mittelwerte unterschiedlich sind, kann wie folgt berechnet werden:

wo

ist ein Schätzer der gepoolten Standardabweichung der beiden Stichproben: Er ist so definiert, dass sein Quadrat ein unverzerrter Schätzer der gemeinsamen Varianz ist, unabhängig davon, ob die Mittelwerte der Grundgesamtheit gleich sind oder nicht. In diesen Formeln ist n i − 1 die Anzahl der Freiheitsgrade für jede Gruppe, und der Gesamtstichprobenumfang minus zwei (d. h. n 1 + n 2 − 2 ) ist die Gesamtanzahl der verwendeten Freiheitsgrade bei der Signifikanzprüfung.

Gleiche oder ungleiche Stichprobenumfänge, ungleiche Varianzen ( s X 1 > 2 s X 2 oder s X 2 > 2 s X 1 )

Dieser Test, auch als Welch- t- Test bekannt , wird nur verwendet, wenn die beiden Varianzen der Grundgesamtheit nicht als gleich angenommen werden (die beiden Stichprobengrößen können gleich sein oder nicht) und müssen daher getrennt geschätzt werden. Die t- Statistik zum Testen, ob die Mittelwerte der Grundgesamtheit unterschiedlich sind, wird wie folgt berechnet:

wo

Hier ist s i 2 der unverzerrte Schätzer der Varianz jeder der beiden Stichproben mit n i = Anzahl der Teilnehmer in Gruppe i ( i = 1 oder 2). In diesem Fall handelt es sich nicht um eine gepoolte Varianz. Zur Verwendung bei Signifikanztests wird die Verteilung der Teststatistik als gewöhnliche Student- t- Verteilung mit den Freiheitsgraden, die mit berechnet wurden, angenähert

Dies ist als Welch-Satterthwaite-Gleichung bekannt . Die wahre Verteilung der Teststatistik hängt tatsächlich (geringfügig) von den beiden unbekannten Populationsvarianzen ab (siehe Behrens-Fisher-Problem ).

Abhängiger t -Test für gepaarte Stichproben

Dieser Test wird verwendet, wenn die Stichproben abhängig sind; das heißt, wenn nur eine Probe zweimal getestet wurde (wiederholte Messungen) oder wenn zwei Proben gematcht oder "gepaart" wurden. Dies ist ein Beispiel für einen gepaarten Differenztest . Die t- Statistik wird berechnet als

wobei und der Durchschnitt und die Standardabweichung der Differenzen zwischen allen Paaren sind. Bei den Paaren handelt es sich zB entweder um die Vor- und Nachtestergebnisse einer Person oder um Personenpaare, die in sinnvolle Gruppen eingeteilt sind (z. B. aus derselben Familie oder Altersgruppe: siehe Tabelle). Die Konstante μ 0 ist null, wenn wir testen wollen, ob der Mittelwert der Differenz signifikant unterschiedlich ist. Der verwendete Freiheitsgrad ist n − 1 , wobei n die Anzahl der Paare darstellt.

Beispiel für wiederholte Maßnahmen
Nummer Name Test 1 Test 2
1 Mike 35% 67 %
2 Melanie 50% 46%
3 Melissa 90% 86%
4 Mitchell 78% 91%
Beispiel für übereinstimmende Paare
Paar Name Alter Prüfen
1 John 35 250
1 Jane 36 340
2 Jimmy 22 460
2 Jessy 21 200

Arbeitsbeispiele

Sei A 1 eine Menge, die durch Ziehen einer Zufallsstichprobe von sechs Messungen erhalten wird:

und sei A 2 eine zweite Menge, die auf ähnliche Weise erhalten wird:

Dies können zum Beispiel die Gewichte von Schrauben sein, die aus einem Eimer ausgewählt wurden.

Wir werden Tests der Nullhypothese durchführen, dass die Mittelwerte der Populationen, aus denen die beiden Stichproben gezogen wurden, gleich sind.

Die Differenz zwischen den beiden Stichprobenmittelwerten, die jeweils mit X i bezeichnet werden und im Zähler für alle oben diskutierten Testansätze mit zwei Stichproben erscheinen, beträgt

Die Probenstandardabweichungen für die beiden Proben sind etwa 0,05 bzw. 0,11. Für so kleine Stichproben wäre ein Test auf Gleichheit zwischen den beiden Populationsvarianzen nicht sehr aussagekräftig. Da die Stichprobengrößen gleich sind, funktionieren die beiden Formen des t- Tests mit zwei Stichproben in diesem Beispiel ähnlich.

Ungleiche Abweichungen

Wenn der Ansatz für ungleiche Varianzen (oben diskutiert) verfolgt wird, sind die Ergebnisse

und die Freiheitsgrade

Die Teststatistik beträgt ungefähr 1,959, was einen zweiseitigen Test- p- Wert von 0,09077 ergibt.

Gleiche Abweichungen

Wenn der Ansatz für gleiche Varianzen (oben diskutiert) verfolgt wird, sind die Ergebnisse

und die Freiheitsgrade

Die Teststatistik entspricht ungefähr 1,959, was einen zweiseitigen p- Wert von 0,07857 ergibt.

Verwandte statistische Tests

Alternativen zum t- Test bei Standortproblemen

Der t- Test liefert einen exakten Test für die Gleichheit der Mittelwerte zweier iid-Normalpopulationen mit unbekannten, aber gleichen Varianzen. ( Welche t -Test ein nahezu exakter Test für den Fall, in dem die Daten normal sind , aber die Abweichungen können unterschiedlich sein .) Für mäßig große Proben und einen tailed Test, die t - Test relativ robust Verletzungen der Normalitätsannahme moderieren. In groß genug , um Proben, nähert sich der t-Test asymptotisch die z -test und robust wird auch zu großen Abweichungen von der Normalität.

Wenn die Daten im Wesentlichen nicht normal sind und die Stichprobengröße klein ist, kann der t- Test irreführende Ergebnisse liefern. Siehe Standorttest für Mischungsverteilungen auf Gaußscher Skala für eine Theorie, die sich auf eine bestimmte Familie von nicht-normalen Verteilungen bezieht.

Wenn die Normalitätsannahme nicht zutrifft, kann eine nichtparametrische Alternative zum t- Test eine bessere statistische Aussagekraft haben . Wenn die Daten jedoch nicht normal mit unterschiedlichen Varianzen zwischen den Gruppen sind, kann ein t-Test eine bessere Fehlerkontrolle vom Typ 1 haben als einige nicht parametrische Alternativen. Darüber hinaus testen nicht-parametrische Methoden, wie der unten diskutierte Mann-Whitney-U-Test , normalerweise nicht auf Mittelwertdifferenzen und sollten daher vorsichtig verwendet werden, wenn eine Mittelwertdifferenz von primärem wissenschaftlichen Interesse ist. Beispielsweise hält der Mann-Whitney-U-Test den Typ-1-Fehler auf dem gewünschten Alpha-Niveau, wenn beide Gruppen die gleiche Verteilung aufweisen. Es wird auch eine Möglichkeit haben, eine Alternative zu erkennen, bei der Gruppe B die gleiche Verteilung wie A hat, aber nach einer gewissen Verschiebung um eine Konstante (in diesem Fall würde es tatsächlich einen Unterschied in den Mittelwerten der beiden Gruppen geben). Es kann jedoch Fälle geben, in denen die Gruppen A und B unterschiedliche Verteilungen aufweisen, jedoch mit denselben Mittelwerten (z. B. zwei Verteilungen, eine mit positiver Schiefe und die andere mit einer negativen, aber so verschoben, dass sie die gleichen Mittelwerte haben). In solchen Fällen könnte MW mehr Leistung als Alpha-Niveau haben, um die Nullhypothese abzulehnen, aber die Interpretation der Mittelwertdifferenz einem solchen Ergebnis zuzuschreiben wäre falsch.

Bei Vorliegen eines Ausreißers ist der t-Test nicht robust. Beispielsweise für zwei unabhängige Proben , wenn die Datenverteilungen asymmetrisch sind (das heißt, die Verteilungen sind schiefe ) oder die Verteilungen haben große Schwänze, dann wird der Wilcoxon - Rangsummentest (auch bekannt als der Mann-Whitney U - Test ) kann drei haben bis viermal höhere Potenz als der t- Test. Das nichtparametrische Gegenstück zum t -Test für gepaarte Stichproben ist der Wilcoxon-Vorzeichen-Rang-Test für gepaarte Stichproben. Für eine Diskussion über die Wahl zwischen dem t- Test und nichtparametrischen Alternativen siehe Lumley et al. (2002).

Die einseitige Varianzanalyse (ANOVA) verallgemeinert den t- Test bei zwei Stichproben, wenn die Daten zu mehr als zwei Gruppen gehören.

Ein Design, das sowohl gepaarte Beobachtungen als auch unabhängige Beobachtungen umfasst

Wenn sowohl gepaarte Beobachtungen als auch unabhängige Beobachtungen im Zweistichproben-Design vorhanden sind, können die gepaarten Beobachtungen oder unabhängigen Beobachtungen verworfen werden, um mit den obigen Standardtests fortzufahren, vorausgesetzt, dass Daten vollständig zufällig fehlen (MCAR). Alternativ könnte unter Verwendung aller verfügbaren Daten unter Annahme von Normalität und MCAR der verallgemeinerte t-Test mit teilweise überlappenden Stichproben verwendet werden.

Multivariate Tests

Eine Verallgemeinerung der t- Statistik von Student , die als t- Quadrat-Statistik von Hotelling bezeichnet wird , ermöglicht das Testen von Hypothesen über mehrere (oft korrelierte) Maße innerhalb derselben Stichprobe. Zum Beispiel könnte ein Forscher eine Reihe von Probanden einem Persönlichkeitstest unterziehen, der aus mehreren Persönlichkeitsskalen besteht (zB das Minnesota Multiphasic Personality Inventory ). Da Messungen dieser Art in der Regel positiv korreliert sind, ist es nicht ratsam, separate univariate t- Tests zum Testen von Hypothesen durchzuführen, da diese die Kovarianz zwischen den Messungen vernachlässigen und die Wahrscheinlichkeit erhöhen würden, mindestens eine Hypothese fälschlicherweise abzulehnen ( Typ-I-Fehler ). In diesem Fall ist ein einzelner multivariater Test für den Hypothesentest vorzuziehen. Fishers Methode zum Kombinieren mehrerer Tests mit reduziertem Alpha für eine positive Korrelation zwischen den Tests ist eine. Eine andere ist, dass die T 2 -Statistik von Hotelling einer T 2 -Verteilung folgt . In der Praxis wird die Verteilung jedoch selten verwendet, da tabellarische Werte für T 2 schwer zu finden sind. Normalerweise wird T 2 stattdessen in eine F- Statistik umgewandelt.

Für eine eine Abtastprobe multivariate Test wird die Hypothese , dass der mittlere Vektor ( μ ) auf einen gegebenen Vektor gleich ( μ 0 ). Die Teststatistik ist Hotellings t 2 :

wobei n die Stichprobengröße ist, x der Vektor der Spaltenmittelwerte ist und S eine m × m Stichproben-Kovarianzmatrix ist .

Für einen multivariaten Test mit zwei Stichproben lautet die Hypothese, dass die Mittelwertvektoren ( μ 1 , μ 2 ) zweier Stichproben gleich sind. Die Teststatistik ist Hotellings Zweistichprobe t 2 :

Softwareimplementierungen

Viele Tabellenkalkulationsprogramme und Statistikpakete wie QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , MATLAB und Minitab enthalten Implementierungen von Student's t- test.

Sprache/Programm Funktion Anmerkungen
Microsoft Excel vor 2010 TTEST(array1, array2, tails, type) Siehe [1]
Microsoft Excel 2010 und höher T.TEST(array1, array2, tails, type) Siehe [2]
LibreOffice Calc TTEST(Data1; Data2; Mode; Type) Siehe [3]
Google Tabellen TTEST(range1, range2, tails, type) Siehe [4]
Python scipy.stats.ttest_ind(a, b, equal_var=True) Siehe [5]
MATLAB ttest(data1, data2) Siehe [6]
Mathematik TTest[{data1,data2}] Siehe [7]
R t.test(data1, data2, var.equal=TRUE) Siehe [8]
SAS PROC TTEST Siehe [9]
Java tTest(sample1, sample2) Siehe [10]
Julia EqualVarianceTTest(sample1, sample2) Siehe [11]
Status ttest data1 == data2 Siehe [12]

Siehe auch

Verweise

Zitate

Quellen

Weiterlesen

  • Boneau, C. Alan (1960). „Die Auswirkungen von Verletzungen der Annahmen, die dem t- Test zugrunde liegen “. Psychologisches Bulletin . 57 (1): 49–64. doi : 10.1037/h0041412 . PMID  13802482 .
  • Edgell, Stephen E.; Mittag, Sheila M. (1984). „Auswirkung der Verletzung der Normalität auf den t- Test des Korrelationskoeffizienten“. Psychologisches Bulletin . 95 (3): 576–583. doi : 10.1037/0033-2909.95.3.576 .

Externe Links