Problem mit mehreren Vergleichen - Multiple comparisons problem

Ein Beispiel für einen Zufall, der durch das Ausbaggern von Daten erzeugt wurde (der eine Korrelation zwischen der Anzahl der Buchstaben im Siegerwort einer Buchstabierbiene und der Anzahl der Menschen in den Vereinigten Staaten zeigt, die von giftigen Spinnen getötet wurden). Bei einem ausreichend großen Variablenpool für denselben Zeitraum ist es möglich, ein Diagrammpaar zu finden, das eine Korrelation ohne Kausalität zeigt .

In der Statistik tritt das Problem der multiplen Vergleiche , der Multiplizität oder des multiplen Testens auf, wenn man einen Satz statistischer Inferenzen gleichzeitig betrachtet oder eine Teilmenge von Parametern ableitet, die basierend auf den beobachteten Werten ausgewählt wurden. In bestimmten Bereichen ist dies als Look-Elsewhere-Effekt bekannt .

Je mehr Schlussfolgerungen gezogen werden, desto wahrscheinlicher werden fehlerhafte Schlussfolgerungen. Mehrere statistische Techniken wurden entwickelt, um dieses Problem anzugehen, typischerweise indem eine strengere Signifikanzschwelle für einzelne Vergleiche gefordert wird, um die Anzahl der gemachten Schlüsse zu kompensieren.

Geschichte

Das Problem der Mehrfachvergleiche erhielt in den 1950er Jahren durch die Arbeit von Statistikern wie Tukey und Scheffé verstärkte Aufmerksamkeit . In den folgenden Jahrzehnten wurden viele Verfahren entwickelt, um das Problem anzugehen. 1996 fand in Israel die erste internationale Konferenz zu multiplen Vergleichsverfahren statt ; findet in der Regel etwa alle zwei Jahre in verschiedenen Gastländern statt.

Definition

Mehrfachvergleiche treten auf, wenn eine statistische Analyse mehrere gleichzeitige statistische Tests umfasst, von denen jeder das Potenzial hat, eine "Entdeckung" zu erzeugen. Ein angegebenes Vertrauensniveau gilt im Allgemeinen nur für jeden einzeln betrachteten Test, aber oft ist es wünschenswert, ein Vertrauensniveau für die gesamte Familie simultaner Tests zu haben. Das Versäumnis, mehrere Vergleiche zu kompensieren, kann wichtige Konsequenzen in der Praxis haben, wie die folgenden Beispiele zeigen:

  • Angenommen, die Behandlung ist eine neue Methode, den Schülern das Schreiben beizubringen, und die Kontrolle ist die Standardmethode, um das Schreiben zu unterrichten. Die Schüler der beiden Gruppen können in Bezug auf Grammatik, Rechtschreibung, Organisation, Inhalt usw. verglichen werden. Als weitere Attribute verglichen werden, wird es zunehmend wahrscheinlicher , dass die Behandlungs- und Kontrollgruppen auf mindestens ein Attribut aufgrund zufälliger abweichen erscheinen Abtastfehler allein.
  • Angenommen, wir betrachten die Wirksamkeit eines Arzneimittels im Hinblick auf die Verringerung eines von mehreren Krankheitssymptomen. Je mehr Symptome in Betracht gezogen werden, desto wahrscheinlicher wird es, dass das Medikament in Bezug auf mindestens ein Symptom eine Verbesserung gegenüber bestehenden Medikamenten darstellt.

In beiden Beispielen wird es mit zunehmender Anzahl von Vergleichen wahrscheinlicher, dass sich die verglichenen Gruppen in Bezug auf mindestens ein Attribut zu unterscheiden scheinen. Unser Vertrauen, dass sich ein Ergebnis auf unabhängige Daten verallgemeinern lässt, sollte im Allgemeinen schwächer sein, wenn es als Teil einer Analyse mit mehreren Vergleichen beobachtet wird, anstatt einer Analyse, die nur einen einzigen Vergleich umfasst.

Wenn beispielsweise ein Test auf dem 5%-Niveau durchgeführt wird und die entsprechende Nullhypothese wahr ist, besteht nur eine Wahrscheinlichkeit von 5%, die Nullhypothese fälschlicherweise abzulehnen. Wenn jedoch 100 Tests jeweils auf dem 5%-Niveau durchgeführt werden und alle entsprechenden Nullhypothesen wahr sind, beträgt die erwartete Anzahl falscher Ablehnungen (auch bekannt als falsch positive oder Typ-I-Fehler ) 5. Wenn die Tests statistisch voneinander unabhängig sind , beträgt die Wahrscheinlichkeit mindestens einer falschen Ablehnung ca. 99,4 %.

Das Problem der Mehrfachvergleiche gilt auch für Konfidenzintervalle . Ein einzelnes Konfidenzintervall mit einer Überdeckungswahrscheinlichkeit von 95 % enthält den wahren Wert des Parameters in 95 % der Stichproben. Betrachtet man jedoch 100 Konfidenzintervalle gleichzeitig mit jeweils 95 % Überdeckungswahrscheinlichkeit, so beträgt die erwartete Anzahl nicht überdeckender Intervalle 5. Sind die Intervalle statistisch voneinander unabhängig, ist die Wahrscheinlichkeit, dass mindestens ein Intervall die Grundgesamtheit nicht enthält Parameter ist 99,4 %.

Es wurden Techniken entwickelt, um die Inflation falsch positiver Raten und Nicht-Abdeckungsraten zu verhindern, die bei mehreren statistischen Tests auftreten.

Klassifizierung von multiplen Hypothesentests

Die folgende Tabelle definiert die möglichen Ergebnisse beim Testen mehrerer Nullhypothesen. Angenommen, wir haben eine Anzahl m von Nullhypothesen, bezeichnet mit: H 1H 2 , ...,  H m . Mit einem statistischen Test lehnen wir die Nullhypothese ab, wenn der Test für signifikant erklärt wird. Wir verwerfen die Nullhypothese nicht, wenn der Test nicht signifikant ist. Die Summierung jedes Ergebnistyps über alle H i   ergibt die folgenden Zufallsvariablen:

Nullhypothese ist wahr (H 0 ) Alternative Hypothese ist wahr (H A ) Gesamt
Test wird für signifikant erklärt V S R
Test wird für nicht signifikant erklärt U T
Gesamt m

In m Hypothesentests, die wahre Nullhypothesen sind, ist R eine beobachtbare Zufallsvariable und S , T , U und V sind nicht beobachtbare Zufallsvariablen .

Kontrollverfahren

Wenn m unabhängige Vergleiche durchgeführt werden, ist die familienweise Fehlerrate (FWER) gegeben durch

Sofern die Tests nicht vollkommen positiv abhängig (dh identisch) sind, nimmt daher die Anzahl der Vergleiche zu. Wenn wir nicht davon ausgehen, dass die Vergleiche unabhängig sind, können wir immer noch sagen:

was aus der Booleschen Ungleichung folgt . Beispiel:

Es gibt verschiedene Möglichkeiten, um sicherzustellen, dass die familienbezogene Fehlerquote höchstens beträgt . Die konservativste Methode, die frei von Abhängigkeits- und Verteilungsannahmen ist, ist die Bonferroni-Korrektur . Eine geringfügig weniger konservative Korrektur kann durch Lösen der Gleichung für die familienweise Fehlerrate unabhängiger Vergleiche für erhalten werden . Daraus ergibt sich die sogenannte Šidák-Korrektur . Ein weiteres Verfahren ist die Holm-Bonferroni-Methode , die gleichmäßig mehr Power liefert als die einfache Bonferroni-Korrektur, indem nur der niedrigste p-Wert ( ) gegen das strengste Kriterium und die höheren p-Werte ( ) gegen zunehmend weniger strenge Kriterien getestet wird . .

Für kontinuierliche Probleme kann man Bayes'sche Logik verwenden, um aus dem Vorher-Nachher-Volumenverhältnis zu berechnen . Kontinuierliche Verallgemeinerungen der Bonferroni- und Šidák-Korrektur werden in vorgestellt.

Korrektur mehrerer Tests

Multiple Testing Correction bezieht sich auf die Verschärfung statistischer Tests, um dem Problem des Mehrfachtestens entgegenzuwirken. Die bekannteste derartige Anpassung ist die Bonferroni-Korrektur , es wurden jedoch auch andere Verfahren entwickelt. Solche Verfahren sind in der Regel darauf ausgelegt, die familienbezogene Fehlerrate oder die Rate falscher Entdeckungen zu kontrollieren .

Groß angelegte Mehrfachtests

Herkömmliche Methoden zur Anpassung mehrerer Vergleiche konzentrieren sich auf die Korrektur einer bescheidenen Anzahl von Vergleichen, oft in einer Varianzanalyse . Für "groß angelegte Mehrfachtests" wurden verschiedene Techniken entwickelt, bei denen Tausende oder sogar noch mehr Tests durchgeführt werden. In der Genomik können beispielsweise bei der Verwendung von Technologien wie Microarrays Expressionsniveaus von Zehntausenden von Genen gemessen und Genotypen für Millionen genetischer Marker gemessen werden. Insbesondere im Bereich der genetischen Assoziationsstudien gab es ein ernsthaftes Problem mit der Nichtreplikation – ein Ergebnis, das in einer Studie stark statistisch signifikant war, aber in einer Folgestudie nicht repliziert werden konnte. Eine solche Nichtreplikation kann viele Ursachen haben, aber es wird allgemein angenommen, dass die Nichtberücksichtigung der Folgen von Mehrfachvergleichen eine der Ursachen ist. Es wurde argumentiert, dass Fortschritte in der Mess- und Informationstechnologie es viel einfacher gemacht haben, große Datensätze für explorative Analysen zu generieren , was oft dazu führt, dass eine große Anzahl von Hypothesen getestet wird, ohne dass zuvor eine Grundlage für die Annahme vieler Hypothesen gegeben wurde. In dieser Situation werden sehr hohe Falsch-Positiv-Raten erwartet, es sei denn, es werden Mehrfachvergleichsanpassungen vorgenommen.

Bei groß angelegten Testproblemen, bei denen es das Ziel ist, definitive Ergebnisse zu liefern, bleibt die familienbezogene Fehlerquote der am meisten akzeptierte Parameter, um statistischen Tests Signifikanzniveaus zuzuschreiben. Wenn eine Studie als explorativ angesehen wird oder signifikante Ergebnisse leicht in einer unabhängigen Studie erneut getestet werden können, wird die Kontrolle der False Discovery Rate (FDR) häufig bevorzugt. Der FDR, grob definiert als der erwartete Anteil falsch positiver Ergebnisse unter allen signifikanten Tests, ermöglicht es den Forschern, eine Reihe von "Kandidaten-Positiven" zu identifizieren, die in einer Folgestudie strenger bewertet werden können.

Die Praxis, viele unangepasste Vergleiche auszuprobieren, in der Hoffnung, einen signifikanten zu finden, ist ein bekanntes Problem, egal ob es unbeabsichtigt oder absichtlich angewendet wird, und wird manchmal als "P-Hacking" bezeichnet.

Beurteilung, ob alternative Hypothesen wahr sind

Ein normales Quantildiagramm für einen simulierten Satz von Teststatistiken, die unter der Nullhypothese als Z-Scores standardisiert wurden . Die Abweichung des oberen Endes der Verteilung vom erwarteten Trend entlang der Diagonalen ist auf das Vorhandensein wesentlich größerer Teststatistikwerte zurückzuführen, als man erwarten würde, wenn alle Nullhypothesen wahr wären. Der rote Punkt entspricht der viertgrößten beobachteten Teststatistik, die 3,13 beträgt, gegenüber einem erwarteten Wert von 2,06. Der blaue Punkt entspricht der fünftkleinsten Teststatistik, die -1,75 gegenüber einem erwarteten Wert von -1,96 beträgt. Die Grafik legt nahe, dass es unwahrscheinlich ist, dass alle Nullhypothesen wahr sind, und dass die meisten oder alle Fälle einer wahren Alternativhypothese aus Abweichungen in die positive Richtung resultieren.

Eine grundlegende Frage, die sich zu Beginn der Analyse einer großen Anzahl von Testergebnissen stellt, ist, ob es Beweise dafür gibt, dass eine der alternativen Hypothesen wahr ist. Ein einfacher Metatest, der angewendet werden kann, wenn angenommen wird, dass die Tests voneinander unabhängig sind, besteht darin, die Poisson-Verteilung als Modell für die Anzahl der signifikanten Ergebnisse auf einem gegebenen Niveau α zu verwenden, die gefunden würden, wenn alle Nullhypothesen wahr. Wenn die beobachtete Anzahl positiver Ergebnisse wesentlich höher ist als erwartet, deutet dies darauf hin, dass unter den signifikanten Ergebnissen wahrscheinlich einige echte positive Ergebnisse enthalten sind. Wenn beispielsweise 1000 unabhängige Tests durchgeführt werden, jeder auf dem Niveau α = 0,05, erwarten wir 0,05 × 1000 = 50 signifikante Tests, wenn alle Nullhypothesen wahr sind. Basierend auf der Poisson-Verteilung mit Mittelwert 50 ist die Wahrscheinlichkeit, mehr als 61 signifikante Tests zu beobachten, kleiner als 0,05. Wenn also mehr als 61 signifikante Ergebnisse beobachtet werden, ist es sehr wahrscheinlich, dass einige von ihnen Situationen entsprechen, in denen die Alternativhypothese gilt. Ein Nachteil dieses Ansatzes besteht darin, dass er den Nachweis überbewertet, dass einige der alternativen Hypothesen wahr sind, wenn die Teststatistiken positiv korreliert sind, was in der Praxis häufig vorkommt. Andererseits bleibt der Ansatz auch dann gültig, wenn eine Korrelation zwischen die Teststatistik, solange gezeigt werden kann, dass die Poisson-Verteilung eine gute Näherung für die Anzahl der signifikanten Ergebnisse liefert. Dieses Szenario entsteht zum Beispiel beim Mining signifikant häufiger Itemsets aus Transaktions-Datasets. Darüber hinaus kann eine sorgfältige zweistufige Analyse die FDR auf ein im Voraus festgelegtes Niveau eingrenzen.

Ein weiterer üblicher Ansatz, der in Situationen verwendet werden kann, in denen die Teststatistik auf Z-Scores standardisiert werden kann, besteht darin, ein normales Quantildiagramm der Teststatistik zu erstellen. Wenn die beobachteten Quantile deutlich stärker gestreut sind als die normalen Quantile, deutet dies darauf hin, dass einige der signifikanten Ergebnisse richtig positiv sein können.

Siehe auch

Schlüssel Konzepte
Allgemeine Methoden der Alpha-Anpassung für Mehrfachvergleiche
Verwandte konzepte

Verweise

Weiterlesen