Macht eines Tests - Power of a test

Die statistische Power eines binären Hypothesentests ist die Wahrscheinlichkeit, dass der Test die Nullhypothese ( ) korrekt zurückweist, wenn eine bestimmte Alternativhypothese ( ) wahr ist. Es wird allgemein mit bezeichnet und repräsentiert die Wahrscheinlichkeit eines "richtig positiven" Nachweises, abhängig von der tatsächlichen Existenz eines zu erkennenden Effekts. Die statistische Trennschärfe reicht von 0 bis 1, und mit zunehmender Trennschärfe eines Tests sinkt die Wahrscheinlichkeit , einen Fehler vom Typ II zu machen, indem die Nullhypothese fälschlicherweise nicht abgelehnt wird.

Notation

Dieser Artikel verwendet die folgende Notation

  • β = Wahrscheinlichkeit eines Fehlers vom Typ II, bekannt als "falsch negativ"
  • 1-β = Wahrscheinlichkeit eines "richtig positiven", dh der korrekten Ablehnung der Nullhypothese. "1-β" ist auch als Teststärke bekannt.
  • α = Wahrscheinlichkeit eines Fehlers Typ I, bekannt als "falsch positiv"
  • 1-α = Wahrscheinlichkeit eines "richtigen Negativs", dh die Nullhypothese richtigerweise nicht abzulehnen

Beschreibung

Für eine Fehlerwahrscheinlichkeit vom Typ II von β ist die entsprechende statistische Power 1 −  β . Wenn beispielsweise Experiment E eine statistische Trennschärfe von 0,7 und Experiment F eine statistische Trennschärfe von 0,95 hat, dann besteht eine höhere Wahrscheinlichkeit, dass Experiment E einen Fehler vom Typ II aufwies als Experiment F. Dies verringert die Empfindlichkeit von Experiment E, signifikante Effekte zu erkennen . Experiment E ist jedoch aufgrund seiner geringeren Wahrscheinlichkeit eines Fehlers vom Typ I folglich zuverlässiger als Experiment F. Sie kann äquivalent als die Wahrscheinlichkeit angesehen werden, die Alternativhypothese ( ) zu akzeptieren, wenn sie wahr ist – d. h. die Fähigkeit eines Tests, einen spezifischen Effekt zu erkennen, wenn dieser spezifische Effekt tatsächlich existiert. Daher,

Wenn keine Gleichheit ist, sondern einfach die Negation von (also zum Beispiel für einen unbeobachteten Populationsparameter haben wir einfach ), dann kann die Potenz nicht berechnet werden, es sei denn, es sind Wahrscheinlichkeiten für alle möglichen Werte des Parameters bekannt, die die Nullhypothese verletzen. Somit bezieht man sich im Allgemeinen auf die Stärke eines Tests gegenüber einer bestimmten Alternativhypothese .

Mit zunehmender Potenz nimmt die Wahrscheinlichkeit eines Typ-II-Fehlers ab, der auch als falsch negative Rate ( β ) bezeichnet wird, da die Potenz gleich 1 −  β ist . Ein ähnliches Konzept ist die Fehlerwahrscheinlichkeit Typ I , die auch als False-Positive-Rate oder das Niveau eines Tests unter der Nullhypothese bezeichnet wird.

Im Zusammenhang mit der binären Klassifikation wird die Aussagekraft eines Tests als seine statistische Sensitivität , seine wahre positive Rate oder seine Entdeckungswahrscheinlichkeit bezeichnet .

Leistungsanalyse

Ein verwandtes Konzept ist die "Leistungsanalyse". Power - Analyse kann verwendet werden , um das Minimum zu berechnen Probengröße so erforderlich , dass man vernünftigerweise wahrscheinlich eine Wirkung eines bestimmten zu erkennen sein kann Größe . Zum Beispiel: "Wie oft muss ich eine Münze werfen, um zu dem Schluss zu kommen, dass sie um einen bestimmten Betrag manipuliert ist?" Die Poweranalyse kann auch verwendet werden, um die minimale Effektgröße zu berechnen, die in einer Studie mit einer gegebenen Stichprobengröße wahrscheinlich entdeckt werden kann. Darüber hinaus wird das Konzept der Trennschärfe verwendet, um Vergleiche zwischen verschiedenen statistischen Testverfahren anzustellen: beispielsweise zwischen einem parametrischen Test und einem nichtparametrischen Test derselben Hypothese.

Hintergrund

Statistische Tests verwenden Daten aus Stichproben , um eine statistische Population zu bewerten oder Rückschlüsse darauf zu ziehen . Im konkreten Fall eines Vergleichs mit zwei Stichproben besteht das Ziel darin, zu beurteilen, ob sich die Mittelwerte eines Merkmals, die für Individuen in zwei Teilpopulationen erhalten wurden, unterscheiden. Um zum Beispiel die Null - Hypothese zu testen , dass die mittleren Werte von Männern und Frauen auf einem Test unterscheiden sich nicht, Proben von Männern und Frauen gezeichnet werden, wird der Test ihnen verabreicht, und der Mittelwert einer Gruppe ist im Vergleich zu der die andere Gruppe einen statistischen Tests , wie beispielsweise die Zwei Probe unter Verwendung von z -Test . Die Aussagekraft des Tests ist die Wahrscheinlichkeit, dass der Test einen statistisch signifikanten Unterschied zwischen Männern und Frauen als Funktion der Größe des wahren Unterschieds zwischen diesen beiden Populationen findet.

Einflussfaktoren auf die Leistung

Die statistische Aussagekraft kann von einer Reihe von Faktoren abhängen. Einige Faktoren können für eine bestimmte Testsituation spezifisch sein, aber mindestens hängt die Leistung fast immer von den folgenden drei Faktoren ab:

Ein Signifikanzkriterium ist eine Aussage darüber, wie unwahrscheinlich ein positives Ergebnis sein muss, wenn die Nullhypothese kein Effekt zutrifft, damit die Nullhypothese abgelehnt wird. Die am häufigsten verwendeten Kriterien sind Wahrscheinlichkeiten von 0,05 (5%, 1 von 20), 0,01 (1%, 1 von 100) und 0,001 (0,1%, 1 von 1000). Wenn das Kriterium 0,05 ist, muss die Wahrscheinlichkeit, dass die Daten einen Effekt implizieren, der mindestens so groß ist wie der beobachtete Effekt, wenn die Nullhypothese wahr ist, kleiner als 0,05 sein, damit die Nullhypothese ohne Effekt abgelehnt wird. Eine einfache Möglichkeit, die Aussagekraft eines Tests zu erhöhen, besteht darin, einen weniger konservativen Test durchzuführen, indem ein größeres Signifikanzkriterium verwendet wird, beispielsweise 0,10 statt 0,05. Dies erhöht die Wahrscheinlichkeit, die Nullhypothese abzulehnen (ein statistisch signifikantes Ergebnis zu erhalten), wenn die Nullhypothese falsch ist; das heißt, es verringert das Risiko eines Typ-II-Fehlers (falsch negativ in Bezug auf das Vorliegen eines Effekts). Aber es erhöht auch das Risiko, ein statistisch signifikantes Ergebnis zu erhalten (die Nullhypothese abzulehnen), wenn die Nullhypothese nicht falsch ist; das heißt, es erhöht das Risiko eines Typ-I-Fehlers (falsch positiv).

Die Größe des interessierenden Effekts in der Population kann anhand einer Effektstärke quantifiziert werden , wobei eine größere Aussagekraft zum Erkennen größerer Effekte besteht. Eine Effektstärke kann ein direkter Wert der interessierenden Größe oder ein standardisiertes Maß sein, das auch die Variabilität in der Grundgesamtheit berücksichtigt. In einer Analyse, die die Ergebnisse einer behandelten und einer Kontrollpopulation vergleicht, wäre die Differenz der Ergebnismittelwerte beispielsweise eine direkte Schätzung der Effektstärke, während es sich um eine geschätzte standardisierte Effektstärke handelt, wobei die gemeinsame Standardabweichung der Endpunkte in der behandelten und Kontrollgruppen. Bei geeigneter Konstruktion bestimmt eine standardisierte Effektgröße zusammen mit der Stichprobengröße die Trennschärfe vollständig. Eine nicht standardisierte (direkte) Effektstärke reicht selten aus, um die Power zu bestimmen, da sie keine Informationen über die Variabilität der Messungen enthält.

Ein Beispiel dafür, wie sich die Stichprobengröße auf die Trennschärfe auswirkt

Der Stichprobenumfang bestimmt die Menge des Stichprobenfehlers, der einem Testergebnis innewohnt. Bei ansonsten gleichen Bedingungen sind Effekte in kleineren Stichproben schwieriger zu erkennen. Die Erhöhung der Stichprobengröße ist oft der einfachste Weg, um die statistische Aussagekraft eines Tests zu steigern. Wie ein erhöhter Stichprobenumfang zu einer höheren Trennschärfe führt, ist ein Maß für die Effizienz des Tests – zum Beispiel die für eine gegebene Trennschärfe erforderliche Stichprobengröße.

Die Genauigkeit, mit der die Daten gemessen werden, beeinflusst auch die statistische Aussagekraft. Folglich kann die Leistung oft verbessert werden, indem der Messfehler in den Daten verringert wird. Ein verwandtes Konzept besteht darin, die „Reliabilität“ des zu bewertenden Maßes zu verbessern (wie bei der psychometrischen Reliabilität ).

Das Design eines Experiments oder einer Beobachtungsstudie beeinflusst oft die Leistung. In einer Testsituation mit zwei Stichproben und einer gegebenen Gesamtstichprobengröße n ist es beispielsweise optimal, die gleiche Anzahl von Beobachtungen aus den beiden zu vergleichenden Populationen zu haben (solange die Varianzen in den beiden Populationen gleich sind). In der Regressionsanalyse und Varianzanalyse gibt es umfangreiche Theorien und praktische Strategien zur Verbesserung der Power basierend auf einer optimalen Einstellung der Werte der unabhängigen Variablen im Modell.

Interpretation

Obwohl es keine formalen Standards für die Aussagekraft (manchmal als π bezeichnet ) gibt, bewerten die meisten Forscher die Aussagekraft ihrer Tests mit π  = 0,80 als Standard für die Angemessenheit. Diese Konvention impliziert einen Kompromiss zwischen β- Risiko und α- Risiko von vier zu eins . ( β ist die Wahrscheinlichkeit eines Fehlers vom Typ II, und α ist die Wahrscheinlichkeit eines Fehlers vom Typ I; 0,2 und 0,05 sind konventionelle Werte für β und α ). Es kann jedoch vorkommen, dass diese 4-zu-1-Gewichtung unangemessen ist. In der Medizin beispielsweise werden Tests oft so gestaltet, dass keine falsch-negativen (Typ-II-Fehler) produziert werden. Dies erhöht jedoch unweigerlich das Risiko, ein falsch positives Ergebnis (ein Fehler vom Typ I) zu erhalten. Der Grund dafür ist, dass es besser ist, einem gesunden Patienten zu sagen: "Wir haben vielleicht etwas gefunden - testen wir weiter", als einem kranken Patienten zu sagen, "alles ist in Ordnung".

Die Poweranalyse ist angemessen, wenn es um die korrekte Ablehnung einer falschen Nullhypothese geht. In vielen Kontexten geht es weniger um die Feststellung, ob ein Unterschied besteht oder nicht, sondern vielmehr um eine genauere Schätzung der Effektstärke der Population. Zum Beispiel, wenn wir eine Bevölkerung erwarteter Korrelation wird uns zwischen Intelligenz und der Arbeitsleistung von etwa 0,50, eine Probengröße von 20 gibt etwa 80% Leistung ( α  = 0,05, zwei Schwanz) die Nullhypothese von Null - Korrelation zu verwerfen. Bei dieser Studie sind wir jedoch wahrscheinlich mehr daran interessiert zu wissen, ob die Korrelation 0,30 oder 0,60 oder 0,50 beträgt. In diesem Zusammenhang bräuchten wir einen viel größeren Stichprobenumfang, um das Konfidenzintervall unserer Schätzung auf einen für unsere Zwecke akzeptablen Bereich zu reduzieren. Techniken ähnlich denen, die bei einer herkömmlichen Power-Analyse verwendet werden, können verwendet werden, um die Stichprobengröße zu bestimmen, die erforderlich ist, damit die Breite eines Konfidenzintervalls kleiner als ein gegebener Wert ist.

Viele statistische Analysen beinhalten die Schätzung mehrerer unbekannter Größen. In einfachen Fällen sind alle bis auf eine dieser Größen störende Parameter . In dieser Einstellung bezieht sich die einzige relevante Potenz auf die einzelne Größe, die einer formalen statistischen Inferenz unterzogen wird. In einigen Situationen, insbesondere wenn die Ziele eher "explorativ" sind, kann die Analyse eine Reihe von interessanten Größen aufweisen. Beispielsweise können wir in einer multiplen Regressionsanalyse mehrere Kovariaten von potenziellem Interesse einbeziehen. In Situationen wie dieser, in denen mehrere Hypothesen in Betracht gezogen werden, ist es üblich, dass sich die mit den verschiedenen Hypothesen verbundenen Befugnisse unterscheiden. Bei der multiplen Regressionsanalyse beispielsweise hängt die Trennschärfe zum Erkennen eines Effekts einer bestimmten Größe mit der Varianz der Kovariate zusammen. Da verschiedene Kovariaten unterschiedliche Varianzen aufweisen, unterscheiden sich auch ihre Potenzen.

Jede statistische Analyse mit mehreren Hypothesen unterliegt einer Inflation der Fehlerquote Typ I, wenn keine geeigneten Maßnahmen ergriffen werden. Solche Maßnahmen beinhalten typischerweise die Anwendung einer höheren Stringenzschwelle, um eine Hypothese abzulehnen, um die durchgeführten Mehrfachvergleiche zu kompensieren ( z. B. bei der Bonferroni-Methode ). In dieser Situation sollte die Power-Analyse den zu verwendenden multiplen Testansatz widerspiegeln. So kann beispielsweise eine gegebene Studie gut gepowert sein, um eine bestimmte Effektstärke zu erkennen, wenn nur ein Test durchgeführt werden soll, aber dieselbe Effektstärke kann eine viel geringere Power haben, wenn mehrere Tests durchgeführt werden sollen.

Es ist auch wichtig, die statistische Aussagekraft eines Hypothesentests bei der Interpretation seiner Ergebnisse zu berücksichtigen. Die Trennschärfe eines Tests ist die Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen, wenn sie falsch ist; Die Aussagekraft eines Tests wird durch die Wahl des Signifikanzniveaus für den Test, die Größe des gemessenen Effekts und die verfügbare Datenmenge beeinflusst. Ein Hypothesentest kann die Null möglicherweise nicht zurückweisen, wenn beispielsweise ein echter Unterschied zwischen zwei Populationen besteht, die durch einen t-Test verglichen werden, aber der Effekt klein ist und die Stichprobengröße zu klein ist, um den Effekt vom Zufall zu unterscheiden. Viele klinische Studien haben beispielsweise eine geringe statistische Aussagekraft, um Unterschiede in den Nebenwirkungen von Behandlungen zu erkennen , da solche Effekte selten und die Zahl der betroffenen Patienten gering sein können.

A-priori- vs. Post-hoc- Analyse

Die Leistungsanalyse kann entweder vor ( a-priori- oder prospektive Leistungsanalyse) oder nach der Erhebung ( post-hoc- oder retrospektive Leistungsanalyse) erfolgen. Eine A-priori- Power-Analyse wird vor der Forschungsstudie durchgeführt und wird normalerweise verwendet , um ausreichende Stichprobengrößen zu schätzen , um eine angemessene Power zu erreichen. Die Post-hoc- Analyse der „beobachteten Power“ wird nach Abschluss einer Studie durchgeführt und verwendet die erhaltene Stichprobengröße und Effektgröße, um die Power in der Studie zu bestimmen, unter der Annahme, dass die Effektgröße in der Stichprobe der Effektgröße entspricht in der Bevölkerung. Während die Nützlichkeit der prospektiven Poweranalyse im experimentellen Design allgemein anerkannt ist, weist die post-hoc-Poweranalyse grundlegende Mängel auf. Der Versuchung zu verfallen, die statistische Analyse der gesammelten Daten zur Schätzung der Leistung zu verwenden, führt zu nicht aussagekräftigen und irreführenden Werten. Insbesondere hat sich gezeigt, dass die post-hoc "beobachtete Leistung" eine Eins-zu-Eins-Funktion des erreichten p- Wertes ist . Dies wurde erweitert, um zu zeigen, dass alle post-hoc -Poweranalysen unter dem sogenannten "Power-Approach-Paradox" (PAP) leiden, bei dem eine Studie mit einem Nullergebnis mehr Beweise dafür liefern soll, dass die Nullhypothese tatsächlich wahr ist, wenn der p- Wert ist kleiner, da die Scheinleistung zum Erkennen eines tatsächlichen Effekts höher wäre. Tatsächlich wird ein kleinerer p- Wert richtig verstanden, um die Nullhypothese mit relativ geringer Wahrscheinlichkeit wahr zu machen.

Anwendung

Förderagenturen, Ethikkommissionen und Forschungsgremien verlangen häufig, dass ein Forscher eine Power-Analyse durchführt, um beispielsweise die Mindestanzahl an Tierversuchsteilnehmern zu bestimmen, die für einen aussagekräftigen Versuch erforderlich sind. In der frequentistischen Statistik ist es unwahrscheinlich, dass eine Studie mit unzureichender Leistung es einem ermöglicht, zwischen Hypothesen auf dem gewünschten Signifikanzniveau zu wählen. In der Bayes-Statistik wird kein Hypothesentest des Typs durchgeführt, der in der klassischen Potenzanalyse verwendet wird. Im Bayesschen Rahmen aktualisiert man seine oder ihre früheren Überzeugungen unter Verwendung der in einer bestimmten Studie erhaltenen Daten. Grundsätzlich könnte eine Studie, die aus Sicht der Hypothesenprüfung als unterpowert gelten würde, dennoch in einem solchen Aktualisierungsprozess verwendet werden. Power bleibt jedoch ein nützliches Maß dafür, wie sehr eine gegebene Experimentgröße erwartet werden kann, die eigenen Überzeugungen zu verfeinern. Es ist unwahrscheinlich, dass eine Studie mit geringer Power zu einer großen Änderung der Überzeugungen führt.

Beispiel

Das folgende Beispiel zeigt, wie die Leistung für ein randomisiertes Experiment berechnet wird: Angenommen, das Ziel eines Experiments ist es, die Wirkung einer Behandlung auf eine bestimmte Menge zu untersuchen und die Versuchspersonen zu vergleichen, indem die Menge vor und nach der Behandlung gemessen und die Daten mit einem gepaarten t-Test . Lassen Sie und bezeichnen Sie die Vorbehandlungs- und Nachbehandlungsmaßnahmen zum Thema bzw. . Der mögliche Behandlungseffekt sollte in den als unabhängig voneinander angenommenen Unterschieden mit gleichem erwarteten Mittelwert und gleicher Varianz sichtbar werden.

Die Wirkung der Behandlung kann mit einem einseitigen t-Test analysiert werden. Die Nullhypothese ohne Effekt lautet , dass die Mittelwertdifferenz null ist, dh In diesem Fall sagt die Alternativhypothese einen positiven Effekt aus, entsprechend Die Teststatistik lautet:

wo

n ist die Stichprobengröße und der Standardfehler. Die Teststatistik unter der Nullhypothese folgt einer Student-t-Verteilung mit der zusätzlichen Annahme, dass die Daten identisch verteilt sind . Angenommen, die Nullhypothese wird auf dem Signifikanzniveau von abgelehnt Da n groß ist, kann man die t-Verteilung durch eine Normalverteilung approximieren und den kritischen Wert mit der Quantilfunktion berechnen , der Umkehrung der kumulativen Verteilungsfunktion von Normalverteilung. Es stellt sich heraus, dass die Nullhypothese verworfen wird, wenn

Nehmen wir nun an, dass die Alternativhypothese wahr ist und . Dann ist die Macht

Für große N , folgt etwa eine Standardnormalverteilung , wenn die alternative Hypothese wahr ist, kann die ungefähre Leistung berechnet werden als

Gemäß dieser Formel nimmt die Trennschärfe mit den Werten des Parameters For zu, wobei ein bestimmter Wert einer höheren Trennschärfe durch Erhöhen der Stichprobengröße n erhalten werden kann .

Es ist nicht möglich, eine ausreichend große Trennschärfe für alle Werte von as zu garantieren, die sehr nahe bei 0 liegen können. Der minimale ( unendliche ) Wert der Trennschärfe ist gleich dem Vertrauensniveau des Tests, in diesem Beispiel 0,05. Es ist jedoch nicht wichtig, zwischen kleinen positiven Werten zu unterscheiden . Wenn es wünschenswert ist, über eine ausreichende Trennschärfe, sagen wir mindestens 0,90, zu verfügen, um Werte der erforderlichen Stichprobengröße zu ermitteln, kann ungefähr berechnet werden:

woraus folgt, dass

Mit der Quantilfunktion

wo ist ein normales Standardquantil; Eine Erläuterung der Beziehung zwischen und Z-Werten finden Sie im Probit- Artikel .

Verlängerung

Bayesianische Macht

In der frequentistischen Einstellung wird davon ausgegangen, dass Parameter einen bestimmten Wert haben, der wahrscheinlich nicht wahr ist. Dieses Problem kann behoben werden, indem angenommen wird, dass der Parameter eine Verteilung hat. Die resultierende Potenz wird manchmal als Bayessche Potenz bezeichnet, die häufig im Design klinischer Studien verwendet wird.

Prädiktive Erfolgswahrscheinlichkeit

Sowohl die frequentistische Potenz als auch die Bayessche Potenz verwenden statistische Signifikanz als Erfolgskriterium. Allerdings reicht die statistische Signifikanz oft nicht aus, um den Erfolg zu definieren. Um dieses Problem anzugehen, kann das Leistungskonzept auf das Konzept der prädiktiven Erfolgswahrscheinlichkeit (PPOS) erweitert werden. Das Erfolgskriterium für PPOS ist nicht auf statistische Signifikanz beschränkt und wird häufig in klinischen Studiendesigns verwendet .

Software für Trennschärfe- und Stichprobengrößenberechnungen

Es stehen zahlreiche kostenlose und/oder Open-Source-Programme zur Durchführung von Leistungs- und Stichprobengrößenberechnungen zur Verfügung. Diese beinhalten

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Kostenlose statistische Online-Poweranalyse ( https://webpower.psychstat.org )
  • Kostenlose und Open-Source-Online-Rechner ( https://powerandsamplesize.com )
  • Einschalten! bietet praktische Excel-basierte Funktionen, um die minimale nachweisbare Effektgröße und die minimal erforderliche Stichprobengröße für verschiedene experimentelle und quasi-experimentelle Designs zu bestimmen.
  • PowerUpR ist die R-Paketversion von PowerUp! und enthält zusätzlich Funktionen zum Bestimmen der Stichprobengröße für verschiedene mehrstufige randomisierte Experimente mit oder ohne Budgetbeschränkungen.
  • R-Paket pwr
  • R-Paket WebPower
  • Python-Paket statsmodels ( https://www.statsmodels.org/ )

Siehe auch

Verweise

Quellen

  • Cohen, J. (1988). Statistische Poweranalyse für die Verhaltenswissenschaften (2. Aufl.). ISBN 0-8058-0283-5.
  • Aberson, CL (2010). Angewandte Leistungsanalyse für die Verhaltenswissenschaft . ISBN 1-84872-835-2.

Externe Links