Statistische Signifikanz - Statistical significance

Beim statistischen Hypothesentest hat ein Ergebnis statistische Signifikanz, wenn es bei der Nullhypothese sehr unwahrscheinlich ist, dass es aufgetreten ist . Genauer gesagt ist das definierte Signifikanzniveau einer Studie , bezeichnet mit , die Wahrscheinlichkeit, dass die Studie die Nullhypothese ablehnt, vorausgesetzt, dass die Nullhypothese als wahr angenommen wurde; und der p- Wert eines Ergebnisses, , ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis zu erhalten, wenn die Nullhypothese wahr ist. Das Ergebnis ist nach den Standards der Studie statistisch signifikant , wenn . Das Signifikanzniveau für eine Studie wird vor der Datenerhebung ausgewählt und beträgt in der Regel 5 % oder viel weniger – je nach Studienrichtung.

Bei jedem Experiment oder jeder Beobachtung , bei der eine Stichprobe aus einer Grundgesamtheit gezogen wird , besteht immer die Möglichkeit, dass ein beobachteter Effekt allein aufgrund eines Stichprobenfehlers aufgetreten wäre . Wenn der p -Wert eines beobachteten Effekts jedoch kleiner (oder gleich) dem Signifikanzniveau ist, kann ein Forscher schlussfolgern, dass der Effekt die Merkmale der gesamten Population widerspiegelt, wodurch die Nullhypothese abgelehnt wird.

Diese Technik zum Testen der statistischen Signifikanz von Ergebnissen wurde Anfang des 20. Jahrhunderts entwickelt. Der Begriff Signifikanz impliziert hier keine Bedeutung, und der Begriff statistische Signifikanz ist nicht gleichbedeutend mit wissenschaftlicher, theoretischer oder praktischer Signifikanz. Der Begriff klinische Bedeutung bezieht sich beispielsweise auf die praktische Bedeutung eines Behandlungseffekts.

Geschichte

Statistische Signifikanz stammt aus dem 18. Jahrhundert in der Arbeit von John Arbuthnot und Pierre-Simon Laplace , die den p- Wert für das menschliche Geschlechterverhältnis bei der Geburt berechneten , unter der Annahme einer Nullhypothese gleicher Wahrscheinlichkeit für männliche und weibliche Geburten; siehe p- Wert § Historie für Details.

1925 entwickelte Ronald Fisher in seiner Veröffentlichung Statistical Methods for Research Workers die Idee des statistischen Hypothesentests, den er "Signifikanztests" nannte . Fisher schlug eine Wahrscheinlichkeit von eins zu zwanzig (0,05) als geeigneten Grenzwert vor, um die Nullhypothese abzulehnen. In einer Arbeit von 1933 nannten Jerzy Neyman und Egon Pearson diesen Cutoff das Signifikanzniveau , das sie nannten . Sie empfahlen, dass dies im Voraus vor jeder Datenerfassung festgelegt werden sollte.

Trotz seines anfänglichen Vorschlags von 0,05 als Signifikanzniveau beabsichtigte Fisher nicht, diesen Cutoff-Wert festzusetzen. In seiner 1956 erschienenen Veröffentlichung Statistical Methods and Scientific Inference empfahl er, Signifikanzniveaus nach bestimmten Umständen festzulegen.

Verwandte konzepte

Das Signifikanzniveau ist die Schwelle, unterhalb derer die Nullhypothese abgelehnt wird, obwohl sie als wahr angenommen wird und etwas anderes passiert. Dies bedeutet auch die Wahrscheinlichkeit, die Nullhypothese fälschlicherweise abzulehnen, wenn die Nullhypothese wahr ist. Dies wird auch als falsch positiv und Fehler Typ I bezeichnet .

Manchmal sprechen Forscher stattdessen vom Konfidenzniveau γ = (1 − α ) . Dies ist die Wahrscheinlichkeit, die Nullhypothese nicht abzulehnen, wenn sie wahr ist. Konfidenzniveaus und Konfidenzintervalle wurden 1937 von Neyman eingeführt.

Rolle beim statistischen Hypothesentesten

Bei einem zweiseitigen Test wird der Ablehnungsbereich für ein Signifikanzniveau von α = 0,05 auf beide Enden der Stichprobenverteilung aufgeteilt und macht 5 % der Fläche unter der Kurve (weiße Flächen) aus.

Statistische Signifikanz spielt eine zentrale Rolle bei der statistischen Hypothesenprüfung. Es wird verwendet, um zu bestimmen, ob die Nullhypothese abgelehnt oder beibehalten werden soll. Die Nullhypothese ist die Standardannahme, dass nichts passiert oder sich geändert hat. Um die Nullhypothese abzulehnen, muss ein beobachtetes Ergebnis statistisch signifikant sein, dh der beobachtete p- Wert liegt unter dem vorgegebenen Signifikanzniveau .

Um zu bestimmen, ob ein Ergebnis statistisch signifikant ist, berechnet ein Forscher einen p- Wert, der die Wahrscheinlichkeit ist, einen Effekt der gleichen Größenordnung oder extremer zu beobachten, wenn die Nullhypothese wahr ist. Die Nullhypothese wird abgelehnt, wenn der p- Wert kleiner (oder gleich) einem vorbestimmten Niveau ist, . wird auch als Signifikanzniveau bezeichnet und ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist (ein Fehler vom Typ I ). Sie wird normalerweise auf oder unter 5 % eingestellt.

Wenn beispielsweise auf 5% gesetzt, beträgt die bedingte Wahrscheinlichkeit eines Fehlers vom Typ I , vorausgesetzt, die Nullhypothese ist wahr , 5%, und ein statistisch signifikantes Ergebnis ist eines, bei dem der beobachtete p- Wert kleiner als (oder gleich .) ist zu) 5%. Beim Ziehen von Daten aus einer Stichprobe bedeutet dies, dass der Ablehnungsbereich 5% der Stichprobenverteilung umfasst . Diese 5 % können einer Seite der Stichprobenverteilung zugeordnet werden, wie bei einem einseitigen Test , oder auf beide Seiten der Verteilung wie bei einem zweiseitigen Test aufgeteilt werden , wobei jeder Rand (oder Ablehnungsbereich) 2,5 % enthält. der Verteilung.

Die Anwendung eines einseitigen Tests hängt davon ab, ob die Forschungsfrage oder Alternativhypothese eine Richtung vorgibt, beispielsweise ob eine Gruppe von Objekten schwerer ist oder die Leistung der Schüler bei einer Bewertung besser ist . Ein zweiseitiger Test kann weiterhin verwendet werden, ist jedoch weniger aussagekräftig als ein einseitiger Test, da der Ablehnungsbereich für einen einseitigen Test auf ein Ende der Nullverteilung konzentriert und doppelt so groß ist (5% vs 2,5%) jeder Ablehnungsregion für einen zweiseitigen Test. Als Ergebnis kann die Nullhypothese mit einem weniger extremen Ergebnis verworfen werden, wenn ein einseitiger Test verwendet wurde. Der einseitige Test ist nur dann aussagekräftiger als ein zweiseitiger Test, wenn die angegebene Richtung der Alternativhypothese richtig ist. Wenn er jedoch falsch ist, hat der einseitige Test keine Aussagekraft.

Bedeutungsschwellen in bestimmten Bereichen

In bestimmten Bereichen wie Teilchenphysik und Fertigung wird die statistische Signifikanz oft in Vielfachen der Standardabweichung oder des Sigmas ( σ ) einer Normalverteilung ausgedrückt , wobei die Signifikanzschwellen auf einem viel strengeren Niveau (zB 5 σ ) festgelegt werden. Die Gewissheit der Existenz des Higgs-Boson- Teilchens basierte beispielsweise auf dem 5 σ- Kriterium, was einem p- Wert von etwa 1 zu 3,5 Millionen entspricht.

In anderen Bereichen der wissenschaftlichen Forschung wie genomweiten Assoziationsstudien , Signifikanzniveaus so niedrig wie5 × 10 –8 sind keine Seltenheit – da die Anzahl der durchgeführten Tests extrem groß ist.

Einschränkungen

Forscher, die sich ausschließlich darauf konzentrieren, ob ihre Ergebnisse statistisch signifikant sind, können Ergebnisse melden, die nicht substanziell und nicht reproduzierbar sind. Es gibt auch einen Unterschied zwischen statistischer Signifikanz und praktischer Signifikanz. Eine Studie, die sich als statistisch signifikant herausstellt, muss nicht unbedingt praktisch signifikant sein.

Effektgröße

Die Effektgröße ist ein Maß für die praktische Bedeutung einer Studie. Ein statistisch signifikantes Ergebnis kann einen schwachen Effekt haben. Um die Forschungssignifikanz ihres Ergebnisses abzuschätzen , werden Forscher dazu ermutigt, immer eine Effektstärke zusammen mit p- Werten anzugeben. Ein Maß für die Effektstärke quantifiziert die Stärke eines Effekts, wie den Abstand zwischen zwei Mittelwerten in Einheiten der Standardabweichung (vgl. Cohens d ), den Korrelationskoeffizienten zwischen zwei Variablen oder sein Quadrat und andere Maße.

Reproduzierbarkeit

Ein statistisch signifikantes Ergebnis ist möglicherweise nicht einfach zu reproduzieren. Insbesondere werden einige statistisch signifikante Ergebnisse tatsächlich falsch positiv sein. Jeder fehlgeschlagene Versuch, ein Ergebnis zu reproduzieren, erhöht die Wahrscheinlichkeit, dass das Ergebnis falsch positiv war.

Herausforderungen

Überbeanspruchung in einigen Zeitschriften

Ab den 2010er Jahren begannen einige Zeitschriften zu hinterfragen, ob Signifikanztests und insbesondere die Verwendung eines Schwellenwerts von α = 5 % zu stark als primäres Maß für die Gültigkeit einer Hypothese herangezogen wird. Einige Zeitschriften ermutigten die Autoren, detailliertere Analysen als nur einen statistischen Signifikanztest durchzuführen. In der Sozialpsychologie verbot die Zeitschrift Basic and Applied Social Psychology die Verwendung von Signifikanztests aus ihren veröffentlichten Artikeln und verlangte von den Autoren, andere Maßnahmen zu verwenden, um Hypothesen und Auswirkungen zu bewerten.

Andere Redakteure kommentierten dieses Verbot: „Das Verbot der Berichterstattung über p- Werte, wie es die Grundlagen- und Angewandte Sozialpsychologie kürzlich getan hat, wird das Problem nicht lösen, da es lediglich ein Symptom des Problems behandelt. Es ist nichts falsch mit Hypothesentests und p- Werten per se, solange Autoren, Gutachter und Aktionsredakteure sie richtig verwenden." Einige Statistiker ziehen es vor, alternative Evidenzmaße wie Likelihood-Quotienten oder Bayes-Faktoren zu verwenden . Die Verwendung von Bayes-Statistiken kann Konfidenzniveaus vermeiden, erfordert aber auch das Treffen zusätzlicher Annahmen und verbessert möglicherweise nicht unbedingt die Praxis bezüglich statistischer Tests.

Der weit verbreitete Missbrauch statistischer Signifikanz ist ein wichtiges Thema der Forschung in den Metawissenschaften .

Bedeutung neu definieren

Im Jahr 2016 veröffentlichte die American Statistical Association (ASA) eine Stellungnahme zu p- Werten, in der es heißt, dass „die weit verbreitete Verwendung von ‚statistischer Signifikanz‘ (im Allgemeinen interpretiert als ‚ p  ≤ 0,05‘) als Lizenz für die Behauptung eines wissenschaftlichen Ergebnisses gilt (oder implizite Wahrheit) führt zu einer erheblichen Verzerrung des wissenschaftlichen Prozesses". Im Jahr 2017 schlug eine Gruppe von 72 Autoren vor, die Reproduzierbarkeit zu verbessern, indem der p- Wert-Schwellenwert für die statistische Signifikanz von 0,05 auf 0,005 geändert wurde. Andere Forscher antworteten , dass die Auferlegung einer strengeren Signifikanzschwelle Probleme wie das Ausbaggern von Daten verschlimmern würde ; alternative Vorschläge sind daher, flexible p- Wert-Schwellenwerte auszuwählen und zu rechtfertigen, bevor Daten gesammelt werden, oder p- Werte als kontinuierliche Indizes zu interpretieren , wodurch Schwellenwerte und statistische Signifikanz verworfen werden. Darüber hinaus würde die Änderung auf 0,005 die Wahrscheinlichkeit von falsch negativen Ergebnissen erhöhen, wobei der untersuchte Effekt real ist, der Test jedoch nicht zeigt.

Im Jahr 2019 unterzeichneten über 800 Statistiker und Wissenschaftler eine Botschaft, in der sie die Abschaffung des Begriffs "statistische Bedeutung" in der Wissenschaft forderten, und die American Statistical Association veröffentlichte eine weitere offizielle Erklärung (Seite 2):

Aufgrund unserer Überprüfung der Artikel in dieser Sonderausgabe und der breiteren Literatur kommen wir zu dem Schluss, dass es an der Zeit ist, den Begriff „statistisch signifikant“ nicht mehr zu verwenden. Auch sollten Varianten wie "signifikant unterschiedlich", " ," und "nicht signifikant" nicht überleben, sei es in Worten, durch Sternchen in einer Tabelle oder auf andere Weise.

Siehe auch

Verweise

Weiterlesen

Externe Links