Dunnetts Test - Dunnett's test

In der Statistik ist der Dunnett-Test ein Mehrfachvergleichsverfahren , das vom kanadischen Statistiker Charles Dunnett entwickelt wurde , um jede einer Reihe von Behandlungen mit einer einzigen Kontrolle zu vergleichen. Mehrfachvergleiche mit einer Kontrolle werden auch als Viele-zu-Eins-Vergleiche bezeichnet.

Geschichte

Dunnetts Test wurde 1955 entwickelt; Eine aktualisierte Tabelle kritischer Werte wurde 1964 veröffentlicht.

Problem mit mehreren Vergleichen

Das Problem der Mehrfachvergleiche, der Multiplizität oder des Mehrfachtests tritt auf, wenn man eine Reihe statistischer Schlussfolgerungen gleichzeitig betrachtet oder eine Teilmenge von Parametern ableitet, die basierend auf den beobachteten Werten ausgewählt wurden. Das Hauptproblem bei jeder Diskussion von Mehrfachvergleichsverfahren ist die Frage der Wahrscheinlichkeit von Fehlern des Typs I. Die meisten Unterschiede zwischen alternativen Techniken ergeben sich aus unterschiedlichen Ansätzen zur Frage, wie diese Fehler kontrolliert werden können. Das Problem ist teilweise technisch; Es ist jedoch viel mehr eine subjektive Frage, wie Sie die Fehlerrate definieren möchten und wie groß Sie bereit sind, die maximal mögliche Fehlerrate zuzulassen. Der Dunnett-Test ist bekannt und wird häufig in Mehrfachvergleichsverfahren verwendet, um alle aktiven Behandlungen mit einer Kontrolle bei der Probenahme aus einer Verteilung, bei der die Normalitätsannahme angemessen ist, durch Intervallschätzung oder Hypothesentest gleichzeitig zu vergleichen. Der Dunnett-Test wurde entwickelt, um die familienbezogene Fehlerrate bei mehreren Vergleichen der Behandlungsgruppe mit der Kontrolle auf oder unter zu halten .

Verwendung von Dunnetts Test

Die ursprüngliche Arbeit zum Problem der Mehrfachvergleiche wurde von Tukey und Scheffé gemacht . Ihre Methode war eine allgemeine, die alle Arten von paarweisen Vergleichen berücksichtigte. Die Methoden von Tukey und Scheffé ermöglichen eine beliebige Anzahl von Vergleichen zwischen einer Reihe von Stichprobenmitteln. Andererseits vergleicht Dunnetts Test nur eine Gruppe mit den anderen und befasst sich mit einem speziellen Fall eines Mehrfachvergleichsproblems - paarweisen Vergleichen mehrerer Behandlungsgruppen mit einer einzelnen Kontrollgruppe. Im allgemeinen Fall, in dem wir jedes der Paare vergleichen, führen wir Vergleiche durch (wobei k die Anzahl der Gruppen ist), aber im Fall der Behandlung gegen Kontrollen werden nur Vergleiche durchgeführt. Wenn wir bei Behandlungs- und Kontrollgruppen die allgemeineren Methoden von Tukey und Scheffé anwenden, können sie zu unnötig großen Konfidenzintervallen führen. Der Dunnett-Test berücksichtigt die spezielle Struktur des Vergleichs der Behandlung mit der Kontrolle und ergibt engere Konfidenzintervalle. Es ist sehr üblich, den Dunnett-Test in medizinischen Experimenten zu verwenden, beispielsweise um Blutbildmessungen an drei Gruppen von Tieren zu vergleichen, von denen eine als Kontrolle diente, während die anderen beiden mit zwei verschiedenen Arzneimitteln behandelt wurden. Eine andere häufige Anwendung dieser Methode ist bei Agronomen: Agronomen möchten möglicherweise die Auswirkung bestimmter dem Boden zugesetzter Chemikalien auf den Ernteertrag untersuchen, sodass einige Parzellen unbehandelt bleiben (Kontrollparzellen) und mit den Parzellen verglichen werden, auf denen Chemikalien zugesetzt wurden der Boden (Behandlungsflächen).

Formale Beschreibung von Dunnetts Test

Der Dunnett-Test wird durchgeführt, indem eine Student-t-Statistik für jede experimentelle oder Behandlungsgruppe berechnet wird , wobei die Statistik die Behandlungsgruppe mit einer einzelnen Kontrollgruppe vergleicht. Da jeder Vergleich dieselbe Steuerung gemeinsam hat, berücksichtigt das Verfahren die Abhängigkeiten zwischen diesen Vergleichen. Insbesondere werden die t-Statistiken alle aus derselben Schätzung der Fehlervarianz abgeleitet, die durch Bündeln der Quadratsummen für Fehler über alle (Behandlungs- und Kontroll-) Gruppen erhalten wird. Die formale Teststatistik für den Dunnett-Test ist entweder der größte absolute Wert dieser t-Statistik (wenn ein zweiseitiger Test erforderlich ist) oder die negativste oder positivste der t-Statistik (wenn ein einseitiger Test erforderlich ist) erforderlich).

In Dunnetts Test können wir eine gemeinsame Tabelle kritischer Werte verwenden, aber flexiblere Optionen sind heutzutage in vielen Statistikpaketen wie R verfügbar . Die kritischen Werte für einen bestimmten Prozentpunkt hängen ab von: ob ein ein- oder zweiseitiger Test durchgeführt wird; die Anzahl der verglichenen Gruppen; die Gesamtzahl der Versuche.

Annahmen

Die Analyse berücksichtigt den Fall, in dem die Ergebnisse des Experiments numerisch sind, und das Experiment wird durchgeführt, um p-Behandlungen mit einer Kontrollgruppe zu vergleichen. Die Ergebnisse können als Satz berechneter Mittelwerte der Beobachtungssätze zusammengefasst werden , während sie sich auf die Behandlung beziehen und sich auf den Kontrollsatz von Beobachtungen beziehen und eine unabhängige Schätzung der gemeinsamen Standardabweichung aller Beobachtungssätze sind. Alle der Sätze von Beobachtungen wird angenommen , daß mit einem gemeinsamen unabhängig und normal verteilt werden Varianz und Mittel . Es wird auch davon ausgegangen, dass eine Schätzung für verfügbar ist .

Berechnung

Die Berechnung des Dunnett-Tests basiert auf der Berechnung von Konfidenzaussagen über die wahren oder erwarteten Werte der Unterschiede , also die Unterschiede zwischen dem Mittelwert der Behandlungsgruppen und dem Mittelwert der Kontrollgruppe. Diese Prozedur stellt sicher, dass die Wahrscheinlichkeit, dass alle Aussagen gleichzeitig korrekt sind, einem bestimmten Wert entspricht . Bei der Berechnung des einseitigen oberen (oder unteren) Konfidenzintervalls für den wahren Wert der Differenz zwischen dem Mittelwert der Behandlung und der Kontrollgruppe wird die Wahrscheinlichkeit berechnet, dass dieser tatsächliche Wert unter der oberen (oder über der unteren) Grenze liegt dieses Intervalls. Wenn zweiseitigen Berechnung Konfidenzintervall , bildet die Wahrscheinlichkeit , dass der wahre Wert zwischen den oberen und unteren Grenzen ist.

Zunächst bezeichnen wir die verfügbaren N Beobachtungen mit wann und und schätzen die gemeinsame Varianz beispielsweise mit: wann ist der Mittelwert der Gruppe und ist die Anzahl der Beobachtungen in der Gruppe und Freiheitsgrade. Wie bereits erwähnt, möchten wir für jede der Differenzen separate Konfidenzgrenzen erhalten, sodass die Wahrscheinlichkeit, dass alle Konfidenzintervalle die entsprechenden enthalten, gleich ist .

Wir werden den allgemeinen Fall betrachten, in dem es Behandlungsgruppen und eine Kontrollgruppe gibt. Wir werden schreiben:

Wir werden auch schreiben : , was der t-statistischen Verteilung des Schülers mit n Freiheitsgraden folgt . Die unteren Konfidenzgrenzen mit dem gemeinsamen Konfidenzkoeffizienten für die Behandlungseffekte werden angegeben durch:

und die Konstanten werden so gewählt, dass . Ebenso werden die Obergrenzen gegeben durch:

Für die Begrenzung in beide Richtungen kann das folgende Intervall verwendet werden:

wann werden ausgewählt, um zu befriedigen . Die Lösung für diese speziellen Werte für zweiseitigen Test und für einseitigen Test ist in den Tabellen angegeben. Eine aktualisierte Tabelle kritischer Werte wurde 1964 veröffentlicht.

Beispiele

Bruchfestigkeit des Gewebes

Das folgende Beispiel wurde von Villars übernommen [6]. Die Daten stellen Messungen der Bruchfestigkeit von Gewebe dar, das nach drei verschiedenen chemischen Verfahren im Vergleich zu einer Standardherstellungsmethode behandelt wurde.

Bruchfestigkeit (lbs.)
Standard Prozess 1 Prozess 2 Prozess 3
55 55 55 50
47 64 49 44
48 64 52 41
Meint 50 61 52 45
Varianz 19 27 9 21

Hier ist p = 3 und N = 3. Die durchschnittliche Varianz ist eine Schätzung der gemeinsamen Varianz der vier Sätze mit (p + 1) (N-1) = 8 Freiheitsgraden. Dies kann wie folgt berechnet werden:

.

Die Standardabweichung ist und der geschätzte Standardfehler einer Differenz zwischen zwei Mitteln ist .

Die Menge, die zu den beobachteten Unterschieden zwischen den Mitteln addiert und / oder von diesen abgezogen werden muss, um ihre Konfidenzgrenzen anzugeben, wurde von Tukey als "Zulage" bezeichnet und ist gegeben durch , wobei t aus der multivariaten t-Verteilung gezogen wird oder sein kann erhalten aus Dunnetts Tabelle 1, wenn einseitige Grenzen gewünscht werden, oder aus Dunnetts Tabelle 2, wenn zweiseitige Grenzen gewünscht werden. Für p = 3 und df = 8 ist t = 2,42 für einseitige Grenzen und t = 2,88 für zweiseitige Grenzen für p = 95%. Analoge Werte von t können aus den Tabellen bestimmt werden, wenn p = 99% Konfidenz erforderlich ist. Für einseitige Grenzwerte beträgt die Zulage A = (2,42) (3,56) = 9, und der Experimentator kann Folgendes schließen:

  • Die Bruchfestigkeit nach Verfahren 1 übersteigt den Standard mindestens um
  • Die Bruchfestigkeit nach Verfahren 2 übertrifft den Standard um mindestens .
  • Die Bruchfestigkeit nach Verfahren 3 übertrifft den Standard um mindestens .

Die gemeinsame Aussage, die aus den obigen drei Schlussfolgerungen besteht, hat einen Konfidenzkoeffizienten von 95%, dh auf lange Sicht sind 95% dieser gemeinsamen Aussagen tatsächlich korrekt. In analoger Weise konnten Obergrenzen für die drei Unterschiede erhalten werden. Für zweiseitige Grenzwerte beträgt die Zulage A = (2,94) (3,56) = 11, und der Experimentator kann Folgendes schließen:

  • Die Bruchfestigkeit nach Verfahren 1 übersteigt den Standard um einen Betrag zwischen

und

  • Die Bruchfestigkeit nach Verfahren 2 übersteigt den Standard um einen Betrag zwischen

und .

  • Die Bruchfestigkeit nach Verfahren 3 übersteigt den Standard um einen Betrag zwischen

und . Der gemeinsame Konfidenzkoeffizient für diese drei Aussagen ist größer als 95%. (Aufgrund einer Annäherung, die bei der Berechnung der Tabellen 2a und 2b vorgenommen wurde, sind die tabellarischen Werte von t etwas größer als notwendig, so dass die tatsächlich erreichten ps etwas größer als 95 und 99% sind. Bei der Berechnung der Tabellen 1a und 1b wurde keine solche Annäherung vorgenommen.) .

Verweise

  1. ^ Upton G. & Cook I. (2006.) Ein Wörterbuch der Statistik , 2e, Oxford University Press, Oxford, Vereinigtes Königreich.
  2. ^ Rumsey, Deborah (2009-08-19). Statistik II für Dummies . Wiley. p. 186 . Abgerufen am 22.08.2012 . Dunnett's Test entwickelt von.
  3. ^ Everett BS & Shrondal A. (2010.) Das Cambridge Dictionary of Statistics , 4e, Cambridge University Press, Cambridge, Vereinigtes Königreich.
  4. ^ "Statistische Software | University of Kentucky Information Technology" . Uky.edu. Archiviert vom Original am 31.07.2012 . Abgerufen am 22.08.2012 .
  5. ^ a b c d Dunnett CW (1955). "Ein Mehrfachvergleichsverfahren zum Vergleichen mehrerer Behandlungen mit einer Kontrolle" . Zeitschrift der American Statistical Association . 50 : 1096–1121. doi : 10.1080 / 01621459.1955.10501294 .
  6. ^ a b Dunnett CW (1964.) "Neue Tabellen für mehrere Vergleiche mit einer Kontrolle", Biometrics , 20 : 482–491.
  7. ^ a b c David C. Howell, "Statistische Methoden für die Psychologie", 8. Aufl.
  8. ^ Dunnetts Test , HyperStat Online: Ein einführendes Statistiklehrbuch und ein Online-Tutorial für Hilfe in Statistikkursen
  9. ^ Mechanik verschiedenen Tests - Biostatistik BI 345 archivierten 2010-06-01 an der Wayback Machine , St. Anselm College -