Varianzanalyse - Analysis of variance


Aus Wikipedia, der freien Enzyklopädie

Die Analyse der Varianz ( ANOVA ) ist eine Sammlung von statistischen Modellen und ihren zugeordneten Schätzverfahren (wie die „Variation“ unter und zwischen Gruppen) verwendet , um die Unterschiede zur Analyse unter Gruppe in einem Mittel Stichprobe . ANOVA wurde von entwickelt Statistiker und Evolutionsbiologe Ronald Fisher . In der ANOVA Einstellung die beobachtete Varianz wird in einer bestimmten Variablen in Bestandteile aufgeteilt auf unterschiedliche Quellen der Variation. In seiner einfachsten Form stellt ANOVA einen statistischen Test , ob die Population bedeutet mehrerer Gruppen gleich sind, und deshalb verallgemeinert die t - Test an mehr als zwei Gruppen. ANOVA ist nützlich zum Vergleichen (Tests) drei oder mehr Gruppe bedeutet statistische Signifikanz . Es ist vom Konzept her ähnelt mehrere Zwei-Stichprobe t-Tests , aber ist konservativer, in weniger resultierend ich Fehler Art und ist daher geeignet für eine breite Palette von praktischen Problemen.

Geschichte

Während die Varianzanalyse zum Tragen im 20. Jahrhundert erreicht, Vorgeschichte verlängert Jahrhunderte in die Vergangenheit nach Stigler. Dazu zählen Hypothese - Tests, um die Partitionierung der Summen der Quadrate, experimentelle Techniken und das additive Modell. Laplace auftritt Hypothesenprüfung in den 1770er Jahren. Die Entwicklung der Least-Squares - Verfahren von Laplace und Gauss circa 1800 zur Verfügung gestellt , ein verbessertes Verfahren Beobachtungen Kombinieren (über die bestehende Praxis verwendet dann in der Astronomie und Geodäsie). Es initiiert auch viel Studium der Beiträge zu Summen von Quadraten. Laplace wußte eine Abweichung von einem Rest zu schätzen ( und nicht insgesamt) Summe der Quadrate. Von 1827 wurde mit Laplace Least - Squares Verfahren ANOVA Probleme bei Messungen atmosphärischer Gezeiten zu adressieren. Vor 1800 hatten Astronomen Beobachtungsfehler isoliert aus Reaktionszeiten (die „ persönliche Gleichung “) und hatte Methoden reduzieren die Fehler entwickelt. Die experimentellen Methoden in der Untersuchung der persönlichen Gleichung verwendet wurden später von dem aufstrebenden Gebiet der Psychologie akzeptiert , die starke (vollfaktoriellen) experimentelle Methoden Randomisierung zu der entwickelt und Verblindung wurden in Kürze hinzugefügt. Eine beredte nicht-mathematische Erklärung des additive Wirkung Modells war im Jahr 1885 zur Verfügung.

Ronald Fisher führte den Begriff Varianz und vorgeschlagen , ihre formale Analyse in einem 1918 Artikel , die Korrelation zwischen Verwandten unter der Voraussetzung der Mendelschen Vererbung . Seine erste Anwendung der Analyse der Varianz in 1921. Die Analyse der Varianz veröffentlicht wurde nach allgemein bekannt in Fishers 1925 Buch enthalten ist Statistical Methods for Research Arbeiter .

Randomisierung Modelle wurden von mehreren Forschern entwickelt. Die erste wurde in Polnisch veröffentlicht von Jerzy Neyman 1923.

Eines der Attribute von ANOVA, die ihre frühe Popularität gesichert war Computational Eleganz. Der Aufbau des additiven Modell ermöglicht Lösung für die additiven Koeffizienten durch einfache Algebra und nicht durch Matrix-Berechnungen. In der Ära der mechanischen Rechner diese Einfachheit war entscheidend. Die Bestimmung der statistischen Signifikanz erforderlich auch den Zugriff auf Tabellen der F-Funktion, die durch frühe Statistiken Texte geliefert wurde.

motivierendes Beispiel

Passt nicht.
Messe passen
Sehr gute Passform

Die Analyse der Varianz kann als Erkundungswerkzeug verwendet werden Beobachtungen zu erklären. A dog zeigen ein Beispiel. Eine Hundeshow ist kein stichproben der Rasse: es ist typischerweise an Hunde begrenzt , die erwachsen sind, reinrassige und vorbildlich. Ein Histogramm von dog Gewichten von einer Show könnte glaubhaft eher komplexer sein, wie die gelb-orange Verteilung in den Darstellungen gezeigt. Angenommen , wir haben das Gewicht eines Hundes basierend auf einem bestimmten Satz von Eigenschaften eines jeden Hundes zur Vorhersage wollte. Eine Möglichkeit , das zu tun , ist zu erklären , die Verteilung der Gewichte durch die Hundepopulation in Gruppen einzuteilen auf diesen Merkmalen basieren. Eine erfolgreiche Gruppierung wird geteilt Hunde , so dass (a) jede Gruppe eine geringe Varianz von dog Gewichte hat (was bedeutet , die Gruppe , relativ homogen ist) und (b) der Mittelwert einer jeden Gruppe unterscheidet (wenn zwei Gruppen die gleiche mittlere, dann nicht vernünftig zu schließen ist , dass die Gruppen sind in der Tat, in sinnvoller Weise trennen).

In den Darstellungen nach rechts, Gruppen wie gekennzeichnet sind X 1 , X 2 , etc. In der ersten Darstellung sind die Hunde geteilt nach dem Produkt (Wechselwirkung) von zwei binären Gruppierungen: junger vs alt, und kurzhaarig vs lange -haired (zB Gruppe 1 ist es, junge, kurzhaarige Hunde, Gruppe 2 junge, langhaarige Hunde, etc.). Da die Verteilung von dog Gewicht innerhalb jedem der Gruppen (in blau gezeigt) hat eine relativ große Varianz, und da die Mittel , über die Gruppen sehr ähnlich sind, die Gruppierung Hunde durch diese Eigenschaften erzeugt keinen wirksamen Weg , um die Variation in dog Gewichten erklärt : in der Gruppe ein Hund zu wissen , ist nicht gestattet uns sein Gewicht viel besser als nur zu wissen , den Hund ist in einer Hundeshow zu prognostizieren. Daher schlägt fehl diese Gruppierung die Variation in der Gesamtverteilung (gelb-orange) zu erklären.

Ein Versuch , die Gewichtsverteilung zur Erläuterung von Hunden als Gruppierungs Haustier gegen Arbeitszucht und weniger sportlich vs athletischer wäre wohl ein wenig mehr Erfolg (Messe Sitz). Die schwersten zeigen Hunde sind wahrscheinlich große enge Rasse sein, während Rassen als Haustier gehalten geringer ausfallen und daher leichter. Wie durch die zweite Abbildung gezeigt, hat die Verteilung Varianzen , die deutlich geringer ist als im ersten Fall sind und die Mittel sind mehr unterscheidbar. Allerdings bedeutet die wesentliche Überschneidung von Verteilungen, zum Beispiel, dass wir nicht unterscheiden können , X 1 und X 2 zuverlässig. Gruppieren von Hunden zu einem Münzwurf entsprechend könnte Ausschüttungen erzeugen , die ähnlich aussehen.

Ein Versuch, Gewicht von Rasse zu erklären, ist wahrscheinlich eine sehr gute Passform zu erzeugen. Alle Chihuahuas sind hell und alle St Bernards sind schwer. Der Unterschied in den Gewicht zwischen Setters und Zeiger begründet nicht einzelne Rassen. Die Varianzanalyse liefert die formalen Werkzeuge, um diese intuitiven Urteile zu begründen. Eine übliche Verwendung des Verfahrens ist die Analyse von experimentellen Daten oder die Entwicklung von Modellen. Das Verfahren hat einige Vorteile gegenüber Korrelation: nicht alle Daten müssen numerisch sein und ein Ergebnis des Verfahrens ist ein Gericht in der das Vertrauen in einem Erläuterungs Verhältnis.

Background und Terminologie

ANOVA ist eine Form der Statistischer Test schwer in der Analyse der experimentellen Daten verwendet. Ein Tester (berechnet aus der Nullhypothese und die Probe) ist statistisch signifikant bezeichnet , wenn es gilt als unwahrscheinlich ist zufällig stattgefunden zu haben, die Wahrheit der Nullhypothese angenommen . Ein statistisch signifikantes Ergebnis wird , wenn eine Wahrscheinlichkeit ( P-Wert ) kleiner als eine vorgegebene Schwelle (Signifikanzniveau), begründet die Ablehnung der Nullhypothese , aber nur , wenn die apriorische Wahrscheinlichkeit der Hypothese ist nicht hoch.

In der typischen Anwendung von ANOVA, ist die Nullhypothese, dass alle Gruppen Stichproben aus derselben Population sind. Wenn zum Beispiel der Wirkung verschiedener Behandlungen auf ähnliche Proben von Patienten zu studieren, wäre die Nullhypothese, dass alle Behandlungen die gleiche Wirkung (vielleicht keiner) haben. Die Ablehnung der Nullhypothese ist zu verstehen, dass die Unterschiede in den beobachteten Wirkungen zwischen den Behandlungsgruppen unwahrscheinlich sind durch zufällige Chance.

Durch die Konstruktion begrenzt hypothesis testing die Rate der Typ - I - Fehler (False Positives) zu einem Signifikanzniveau. Experimentatoren wollen auch begrenzen Typ II - Fehler (falsche Negative). Die Raten der Typ - II - Fehler hängen zum großen Teil auf Stichprobe (die Rate größer für kleinere Proben), Signifikanzniveau (wenn die Anforderungen an dem Beweis hoch ist, ist die Wahrscheinlichkeit von mit Blick auf eine Entdeckung ist auch hoch) und Wirkgröße (eine geringere Wirkung Größe ist anfälliger II Fehler Typen).

Die Terminologie der ANOVA ist zum größten Teil aus der statistischen Versuchsplanung . Der Experimentator stellt Faktoren und Maßnahmen Antworten in einem Versuch , eine Wirkung zu bestimmen. Faktoren werden durch eine Kombination von der Randomisierung bis zur experimentellen Einheiten zugewiesen und Blockierung der Gültigkeit der Ergebnisse zu gewährleisten. Blinding hält das Wiegen unparteiisch. Responses zeigt eine Variabilität , die teilweise das Ergebnis der Wirkung und ist teilweise zufällige Fehler.

ANOVA ist die Synthese von mehreren Ideen, und es wird für mehrere Zwecke verwendet. Als Folge ist es schwierig, knapp oder genau festlegen.

„Klassische“ ANOVA für ausgeglichene Daten macht drei Dinge auf einmal:

  1. Als explorative Datenanalyse beschäftigt eine ANOVA einen additiven Datendekompositionsverfahren und seine Summen der Quadrate zeigen die Varianz jeder Komponente des Zersetzungs (oder, in äquivalenter Weise , wobei jeder Satz von Termen eines linearen Modells).
  2. Vergleiche die mittleren Quadrate, zusammen mit einem F - Test  ... Tests von einer verschachtelten Abfolge von Modellen zulassen.
  3. Eng mit der Varianzanalyse ist ein lineares Modell Sitz mit Koeffizienten Schätzungen und Standardfehlern.

Kurz gesagt, ist ANOVA ein statistisches Werkzeug in mehrfacher Hinsicht zur Entwicklung und eine Erklärung für die beobachteten Daten zu bestätigen.

Zusätzlich:

  1. Es ist rechen elegante und relativ robust gegen Verletzungen ihrer Annahmen.
  2. ANOVA stellt starke (multiple Mustervergleich) statistische Analyse.
  3. Es wurde auf die Analyse einer Vielzahl von experimentellen Design angepasst.

Als Ergebnis: ANOVA „genossen hat lange den Status des Seins die meistgenutzten (manche würden sagen missbraucht) statistische Verfahren in der psychologischen Forschung.“ ANOVA „ist vermutlich die nützlichste Technik auf dem Gebiet der statistischen Inferenz.“

ANOVA ist schwierig, vor allem für komplexe Experimente zu lehren, mit Split-Plot - Design ist berüchtigt. In einigen Fällen ist die richtige Anwendung des Verfahrens wird am besten durch Probleme Mustererkennung durch die Konsultierung eines klassischen autoritativen Test folgte bestimmt.

Design-of-Experimente Bedingungen

(Verkürzt aus dem „NIST Ingenieure Statistik-Handbuch“. Abschnitt 5.7 Ein Glossar der Terminologie DOE).

Balanced Design
Ein experimentelles Design, bei dem alle Zellen (dh Therapie-Kombinationen) die gleiche Anzahl von Beobachtungen haben.
Blockierung
Ein Zeitplan für die Behandlung Kombinationen in einer experimentellen Untersuchung solchen leitenden, dass die Auswirkungen auf den experimentellen Ergebnisse aufgrund einer bekannten Veränderung der Rohstoffe, Operatoren, Maschinen, etc. in den Ebenen der Blockierung Variable anreichern. Der Grund für die Blockierung ist eine systematische Wirkung zu isolieren und verhindern, dass es die Haupteffekte verdunkeln. Die Blockierung wird durch die Beschränkung der Randomisierung erreicht.
Design
Eine Reihe von experimentellen Durchläufen, die die Passung eines bestimmten Modells und die Schätzung von Effekten ermöglicht.
DAMHIRSCHKUH
Versuchsplanung. Ein Ansatz zur Problem Einbeziehung Erfassung von Daten zu lösen, die gültig, vertretbare und erträglich Schlussfolgerungen unterstützen.
Bewirken
Wie die Einstellungen eines Faktors Veränderung ändert die Antwort. Die Wirkung eines einzelnen Faktors ist auch ein Haupteffekt.
Error
Unerklärte Variation in einer Sammlung von Beobachtungen. DOE erfordern typischerweise Verständnis sowohl zufällige Fehler und mangelnde Anpassungsfehler.
experimentelle Einheit
Die Einrichtung, an die eine spezifische Behandlung kombiniert angewendet wird.
Faktoren
Prozesseingänge, die ein Forscher eine Änderung in der Ausgabe zu bewirken, manipuliert.
Lack-of-fit-Fehler
Fehler, der auftritt, wenn die Analyse einen oder mehrere wichtigen Begriffe oder Faktoren aus dem Modell Verfahren läßt. Einschließlich Replikation in einer DOE ermöglicht die Trennung von experimentellem Fehler in seine Bestandteile: fehlende Passung und zufälliger (rein) Fehler.
Modell
Mathematische Beziehung, die Änderungen in einer bestimmten Reaktion auf die Änderungen in einem oder mehreren Faktoren betrifft.
Zufälliger Fehler
Fehler, die in dem Prozess aufgrund der natürlichen Variation auftritt. Zufallsfehler wird angenommen, dass typischerweise die normalerweise mit einem Mittelwert von Null und einer konstanten Varianz verteilt werden. Zufallsfehler ist auch experimentelle Fehler bezeichnet.
Randomisierung
Einen Zeitplan für Behandlungsgut Zuteilen und Therapie-Kombinationen in einem DOE derart, dass die Bedingungen in einem Durchlauf weder die Bedingungen der letzten Ausführung abhängen, noch vorauszusagen, die Bedingungen in den nachfolgenden Durchläufen für die Durchführung.
Replication
Durch die Durchführung der gleiche Behandlung Kombination mehr als einmal. Replikation inklusive erlaubt eine Schätzung des statistischen Fehlers unabhängig von jeglicher mangelnde Anpassungsfehler.
Antworten
Der Ausgang (S) ein Prozess. Manchmal genannt abhängige Variable (n).
Behandlung
Eine Behandlung ist eine spezifische Kombination von Faktorstufen, deren Wirkung mit anderen Behandlungen zu vergleichen.

ANOVA-Tabelle

Einweg-ANOVA
Quellen df SS MSS F -Verhältnis
zwischen Therapie k-1 SST MST (SST / (k-1)) MST / MSE
Error N-k SSE MSE (SSE / (N-k))
Gesamt N-1
  • SSE - Sum-of-Platz wegen Fehlern
  • SST - Sum-of-Platz der Behandlung
  • MST - Mittlere Sum-of-Quadrat-Behandlung
  • MSE - Mittlere Sum-of-Quadrat-Fehler
  • df - Degrees of Freedom
Zwei-Wege-ANOVA
Quelle df SS MSS F -Verhältnis
zwischen Therapie k-1 SSR MST (SSR / (k-1)) MST / MSE ( F -Verhältnis row)
zwischen Block h-1 SSC MSV (SSC / (h-1)) MSV / MSE ( F -Verhältnis Spalte)
Error (H-1) (k-1) SSE MSE (SSE / ((h-1) (k-1)))
Gesamt N-1
  • SSR - Sum-of-Platz der Behandlung in Reihen (SST)
  • SSC - Sum-of-Platz zwischen Column
  • MSV - durchschnittliche Summenvarianz

Klassen von Modellen

Es gibt drei Klassen von Modellen in der Analyse der Varianz verwendet, und diese werden hier dargestellt.

Fixed-Effects-Modelle

Das Festeffekt - Modell (Klasse I) der Analyse der Varianz gilt für Situationen , in denen der Experimentator einer oder mehr Behandlungen an die Probanden des Versuchs gilt , um zu sehen , ob die Antwortvariable Werten verändern. Dadurch kann der Experimentator die Bereiche der Antwortvariablenwerte schätzen , die die Behandlung in der Bevölkerung als Ganzes erzeugen würde.

Random-Effects-Modelle

Random-Effects - Modell (Klasse II) verwendet wird , wenn die Behandlungen nicht festgelegt sind. Dies geschieht , wenn die verschiedenen Faktorstufen aus einer größeren Population abgetastet werden. Weil die Stufen selbst sind Zufallsvariablen , einige Annahmen und das Verfahren zur Herstellung der Behandlungen kontrast (ein multivariables Verallgemeinerung von einfachen Unterschiede) unterscheiden sich von den Fixed - Effects - Modell.

Mixed-Effects-Modelle

Ein gemischten Wirkungen Modell (Klasse III) enthält experimentelle Faktoren beiden festen und Zufallseffekte Typen mit entsprechend unterschiedlichen Interpretationen und Analyse für die beiden Typen.

Beispiel: Lehre Experimente konnten von einer Hochschule oder Universität Abteilung ausgeführt werden, um einen guten Einführungslehrbuch zu finden, mit jedem Text eine Therapie in Betracht gezogen. Das Festeffekt-Modell würde eine Liste möglicher Texte vergleichen. Das Random-Effects-Modell würde bestimmen, ob wichtige Unterschiede bestehen aus einer Liste von zufällig ausgewählten Texten. Das gemischten-Effekte Modell würde die (feste) obliegenden Texte Vergleich zu Alternativen zufällig ausgewählt.

Definieren von festen und zufälligen Effekte haben schwer erwiesen, mit konkurrierenden Definitionen zweifellos zu einem linguistischen Sumpf führen.

Annahmen

Die Analyse der Varianz wird von mehreren Ansätzen untersucht worden, die am häufigsten verwendet , von denen ein lineares Modell , das die Antwort auf die Behandlungen und blockiert bezieht. Beachten Sie, dass das Modell linear in Parameter ist, kann aber über Faktorstufen nicht linear sein. Auslegung ist einfach , wenn Daten über Faktoren ausgeglichen ist aber viel tieferes Verständnis für unausgewogene Daten benötigt.

Textbook-Analyse eine Normalverteilung

Die Analyse der Varianz kann in Form eines vorzulegen lineares Modell , das die folgenden Annahmen über die macht Wahrscheinlichkeitsverteilung der Antworten:

  • Unabhängigkeit der Beobachtungen - dies ist eine Annahme des Modells , das die statistische Analyse vereinfacht.
  • Normalität - die Verteilung der Residuen sind normaler .
  • Gleichheit (oder „Homogenität“) der Varianzen, genannt homoscedasticity - die Varianz der Daten in Gruppen sollten die gleichen sein.

Die getrennten Annahmen des Modells Lehrbuch implizieren , dass die Fehler unabhängig sind gleich, und die normalerweise für feste Effekte Modelle verteilt, das heißt, dass die Fehler ( ) sind unabhängig und

Randomisierung basierte Analyse

In einem randomisierten kontrollierten Experiment werden die Behandlungen zufällig experimentelle Einheiten zugewiesen, im Anschluss an dem Versuchsprotokoll. Diese Randomisierung ist Ziel und erklärt , bevor das Experiment ausgeführt wird. Das Ziel Zufallszuordnung wird verwendet , um die Bedeutung der Null - Hypothese zu testen, nach den Ideen von CS Peirce und Ronald Fisher . Diese Design-basierte Analyse wurde von diskutiert und entwickelt Francis J. Anscombe bei Rothamsted Experimental Station und von Oscar Kempthorne an der Iowa State University . Kempthorne und seine Schüler machen eine Annahme - Einheit Therapie additivity , die in den Büchern von Kempthorne und diskutiert wird David R. Cox .

Einheit-Therapie additivity

In seiner einfachsten Form stellt die Annahme von unit-Therapie additivity , dass die beobachtete Antwort aus experimentellen Einheit , wenn die Behandlung empfangen kann als die Summe der Einheit Antwort geschrieben werden und die Therapie-Wirkung , dh

Die Übernahme von unit-Therapie additivity impliziert , dass für jede Behandlung , die th Therapie hat genau die gleiche Wirkung auf jedem Experiment Gerät.

Die Annahme - Einheit Behandlung Additivität kann in der Regel nicht direkt verfälschte nach Cox und Kempthorne. Viele jedoch Folgen der Therapie-Einheit Additivität kann verfälscht werden. Für einen randomisierter Versuch, die Übernahme von unit-Therapie additivity impliziert , dass die Varianz für alle Behandlungen konstant ist. Daher wird durch Gegenüber , ist eine notwendige Bedingung für die Einheit-Therapie Additivität , dass die Varianz konstant ist.

Die Verwendung von Behandlungseinheit Additivität und Randomisierung ähnelt dem Design-basierte Schlußfolgerung , die in endlicher Populationsstandard ist Erhebungs Probenahme .

Abgeleitet lineares Modell

Kempthorne verwendet die Randomisierung-Verteilung und die Übernahme der Behandlungseinheit Additivität ein herzustellen abgeleitete lineares Modell bereits erläutert, sehr ähnlich das Lehrbuch Modell. Die Test - Statistik dieser abgeleiteten linearen Modells sind eng durch die Teststatistik eines entsprechenden normalen linearen Modells angenähert nach Approximationssätze und Simulationsstudien. Allerdings gibt es Unterschiede. Zum Beispiel kann die Randomisierung basierende Analyse - Ergebnisse in einer kleinen , aber (streng) negativen Korrelation zwischen den Beobachtungen. In der Randomisierung-basierte Analyse, gibt es keine Annahme einer Normalverteilung und schon gar keine Annahme von Unabhängigkeit . Im Gegensatz dazu sind die Beobachtungen angewiesen !

Die Randomisierung basierte Analyse hat den Nachteil, dass seine Exposition langweilig Algebra und umfangreiche Zeit handelt. Da die Randomisierung basierte Analyse kompliziert ist und eng mit dem Konzept mit einem gewöhnlichen linearen Modell angenähert wird, betonen die meisten Lehrer das Normal-lineare Modell Konzept. Nur wenige Statistiker Objekt auf modellbasierte Analyse von ausgewogenen randomisierter Experimente.

Statistische Modelle für Beobachtungsdaten

Wenn jedoch Daten aus nicht-randomisierte Versuchen oder aufgetragen Beobachtungsstudien , modellbasierte Analyse fehlt den Optionsschein der Randomisierung. Zum Beobachtungsdaten muss die Ableitung von Konfidenzintervallen verwenden subjektive Modelle, wie betont Ronald Fisher und seine Anhänger. In der Praxis sind die Schätzungen der Therapie-Effekte von beobachtenden Studien im Allgemeinen oft inkonsistent. In der Praxis „statistische Modelle“ und Beobachtungsdaten sind nützlich für die darauf hindeutet , Hypothesen , die sehr vorsichtig von der Öffentlichkeit behandelt werden sollen.

Zusammenfassung der Annahmen

Das normal Modell ANOVA - Analyse auf Basis nimmt die Unabhängigkeit, die Normalität und die Homogenität der Varianzen der Residuen. Die Randomisierung basierte Analyse nimmt nur die Homogenität der Varianzen der Residuen (als Folge der Einheit-Therapie Additivität) und verwendet die Randomisierung Prozedur des Experiments. Sowohl diese Analysen erfordern homoscedasticity , als Voraussetzung für die normal Modell Analyse und als Folge der Randomisierung und Additivität für die Randomisierung basierte Analyse.

Studium von Prozessen jedoch , die unter Verwendung von ANOVA wird erfolgreich Varianzen statt Mittel ( so genannten Dispersionseffekte) ändern durchgeführt. Es sind keine notwendigen Annahmen für ANOVA in voller Allgemeinheit, aber die F - Test für ANOVA Hypothesenprüfung verwendet wird, hat Annahmen und praktische Beschränkungen , die Interesse der Weiterbildung sind.

Probleme , die umgewandelt werden können , nicht die Annahmen der Varianzanalyse genügen oft die Voraussetzungen zu erfüllen. Die Eigenschaft von unit-Therapie additivity ist nicht invariant unter einer „Veränderung des Maßstabs“, so Statistikern oft Transformationen verwendet unit-Therapie additiv zu erreichen. Wenn die Antwortvariable wird erwartet , dass eine parametrische Familie von Wahrscheinlichkeitsverteilungen folgen, dann kann die statistician festlegen (in dem Protokoll für das Experiment oder AWB) , dass die Antworten , die Varianz zu stabilisieren umgewandelt werden. Es kann auch ein Statistiker festlegen , dass logarithmische Transformationen auf die Antworten angewandt werden, die vermutlich ein multiplikatives Modell folgen. Laut Cauchys Funktionalgleichung Theorem, der Logarithmus ist die einzige kontinuierliche Transformation , die der Zugabe echte Multiplikation transformiert.

Eigenschaften

ANOVA ist bei der Analyse von Vergleichsversuchen verwendet, diejenigen , bei denen nur die Unterschiede in den Ergebnissen von Interesse sind. Die statistische Signifikanz des Experiments wird durch ein Verhältnis von zwei Varianzen bestimmt. Diese Kennziffer ist unabhängig von mehreren möglichen Änderungen der experimentellen Beobachtungen: eine Konstante zu allen Beobachtungen Hinzufügen Signifikanz nicht ändern. Multipliziert man alle Beobachtungen durch eine konstante , ändert nichts an Bedeutung. Also ANOVA statistische Signifikanz Ergebnis ist unabhängig von konstanten Vorspannung und Skalierungsfehler ebenso wie die bei der Expression Beobachtungen verwendet Einheiten. Im Zeitalter der mechanischen Berechnungen war es üblich , eine Konstante , die aus allen Beobachtungen zu subtrahieren (wenn äquivalenten führende Ziffern dropping) die Dateneingabe zu vereinfachen. Dies ist ein Beispiel für die Datencodierung .

Logik

Die Berechnungen von ANOVA können als das Berechnen eine Reihe von Mitteln und Varianzen charakterisiert werden, Dividieren zwei Varianzen und das Verhältnis mit einem Wert verglichenen Handbuch statistische Signifikanz zu bestimmen. eine Wirkung der Behandlung ist dann die Berechnung trivial „die Wirkung jeder Behandlung wird geschätzt, indem die Differenz zwischen dem Mittelwert der Beobachtungen nehmen die die Behandlung und die allgemeinen durchschnittlichen empfangen“.

Partitionieren von der Summe der Quadrate

ANOVA verwendet traditionelle standardisierte Terminologie. Der Definitions- Gleichung der Varianz ist , wobei der Divisor die Freiheitsgrade (DF) bezeichnet wird, wird die Summierung der Summe von Quadraten (SS) genannt, ist das Ergebnis die mittlere quadratische (MS) und die quadrierten Terme sind Abweichungen aufgerufen aus die Probe verstanden. ANOVA schätzt 3 Probenvarianzen: insgesamt Varianz basierend auf allen Beobachtungs Abweichungen von dem Gesamtmittelwert , ein Fehlervarianz basierend auf allen Beobachtungs Abweichungen von ihrer entsprechenden Behandlungseinrichtung und eine Behandlungs Varianz. Die Behandlung basiert auf Varianz der Abweichungen des Behandlungsmittels von dem Gesamtmittelwert , wobei das Ergebnis durch die Anzahl der Beobachtungen in jeder Therapie für die Differenz zwischen der Varianz der Beobachtungen und der Varianz von Mitteln zur Rechenschaft multipliziert wird.

Die grundlegende Technik ist eine Aufteilung des Gesamt Summe der Quadrate SS in Bestandteile zu den Wirkungen im Modell verwendeten Zusammenhang stehen. Zum Beispiel kann das Modell für eine vereinfachte ANOVA mit einer Art von Behandlung auf verschiedene Ebenen.

Die Anzahl der Freiheitsgrade DF kann in ähnlicher Art und Weise partitioniert werden: Eine dieser Komponenten (die für die Fehler) spezifiziert eine Chi-Quadrat - Verteilung , die die zugehörige Summe der Quadrate beschreibt, während das gleiche für „Behandlungen“ wahr ist , wenn es keine Therapie Wirkung.

Siehe auch Lack-of-fit Summe der Quadrate .

Der F - Test

Der F - Test wird zum Vergleich der Faktoren der gesamten Abweichung verwendet. Zum Beispiel, in Einweg-oder Single-Faktor ANOVA wird statistische Signifikanz für Statistik durch einen Vergleich der F - Tests getestet

wo MS mittlere quadratische ist, = Anzahl der Behandlungen und = Anzahl der Fälle

auf die F - Verteilung mit , Grad der Freiheit. Unter Verwendung der F -Verteilung ist ein natürlicher Kandidat , da die Teststatistik ist das Verhältnis von zwei skalierten Summen von Quadraten ist , von denen jeder eine skalierte folgende Chi-Quadrat - Verteilung .

Der erwartete Wert von F ist (wobei n die Therapie Probengrße ist) , die 1 für keine Wirkung der Behandlung ist. Als Wert von F Anstieg über 1 sind die Beweise zunehmend unvereinbar mit der Null - Hypothese. Zwei offensichtlich experimentelle Methoden zur Steigerung F sind die Erhöhung der Probengrße und die Verringerung der Fehlervarianz durch enge experimentelle Kontrollen.

Es gibt zwei Möglichkeiten, bei der Varianzanalyse Hypothesentest- Abschluss, die beide das gleiche Ergebnis:

  • Das Lehrbuch - Methode ist die beobachtete Wert von F mit dem kritischen Wert von F von Tabellen bestimmt zu vergleichen. Den kritischen Wert von F ist eine Funktion der Freiheitsgrade des Zählers und des Nenners und des Signifikanzniveau (α). Falls F ≥ F Kritisch wird die Nullhypothese zurückgewiesen.
  • Die Computer-Methode berechnet die Wahrscheinlichkeit (P-Wert) von einem Wert von F größer oder gleich den beobachteten Wert. Die Nullhypothese wird zurückgewiesen, wenn diese Wahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau (α).

Das ANOVA - F - Test bekannt ist , für eine feste Rate falsch positiven Fehler (dh der Maximierung Leistung für eine feste Signifikanzniveau) falsch negative Fehler in dem Sinne , nahezu optimal sein zu minimieren. Zum Beispiel, um die Hypothese zu testen , die verschiedenen medizinische Behandlungen haben genau die gleiche Wirkung, die F - Test ‚s p -Werte nähern eng die Permutation Test ‘ s p-Werte : Die Harmonisierung ist besonders nahe , wenn der Entwurf ausgeglichen ist. Solche Permutationstests charakterisieren Tests mit maximaler Leistung gegen alle alternativen Hypothesen , wie Rosenbaum beobachtet. Der ANOVA F - Test (der Null-Hypothese , dass alle Behandlungen haben genau die gleiche Wirkung) als praktischen Test, wegen seiner Robustheit gegen viele alternativen Ausschüttungen empfohlen.

Erweitere Logik

ANOVA besteht aus trennbaren Teilen; Partitionieren Quellen Varianz und Hypothesentests können einzeln verwendet werden. ANOVA wird verwendet, um andere statistische Instrumente zu unterstützen. Regression wird verwendet erste komplexere Modelle zu Daten anzupassen, werden dann ANOVA verwendet, um Modelle zu vergleichen mit dem Ziel, die Auswahl einfach (r) modelliert, die adäquat die Daten beschreiben. „Solche Modelle könnten, ohne jeden Bezug auf ANOVA passen, aber ANOVA-Tools dann verwendet werden könnten, ein Gefühl der angepassten Modelle zu machen, und Hypothesen über Chargen von Koeffizienten zu testen.“ „[W] E denke an die Analyse der Varianz als eine Möglichkeit des Verstehens und der Strukturierung Multi-Level-Modelle, nicht als Alternative zur Regression, sondern als Instrument für die Zusammenfassung komplexer hochdimensionalen Schlüsse ...“

Für einen einzelnen Faktor

Das einfachste Experiment geeignet für ANOVA - Analyse ist der komplett randomisierter Versuch mit einem einzigen Faktor. Komplexere Experimente mit einem einzigen Faktor Zwänge auf Randomisierung umfassen und umfassen völlig zufällig verteilten Blocks und lateinische Quadrate (und Varianten: griechisch-lateinische Quadrate, etc.). Je komplexe Experimente teilen viele der Komplexitäten von mehreren Faktoren ab . Eine relativ vollständige Diskussion der Analyse (Modelle, Data Zusammenfassungen, ANOVA - Tabelle) des völlig randomisierter Versuch ist verfügbar .

Für mehrere Faktoren

ANOVA verallgemeinert auf die Untersuchung der Auswirkungen von mehreren Faktoren ab . Wenn das Experiment Beobachtungen bei allen Kombinationen von Ebenen jeden Faktor enthält, wird bezeichnet als Fakultät . Factorial Experimente sind effizienter als eine Reihe von Einzelfaktor Experimente und die Wirksamkeit wächst als die Zahl der Faktoren erhöht. Folglich werden faktoriellen Designs schwer verwendet.

Die Verwendung von ANOVA die Auswirkungen mehrerer Faktoren zu untersuchen hat eine Komplikation. In einem 3-Wege - ANOVA mit Faktoren x, y und z, umfasst das ANOVA - Modell Begriffe für die wichtigsten Effekte (x, y, z) und die Bedingungen für Interaktionen (xy, xz, yz, xyz). Alle Bedingungen erfordern Hypothesentests. Die Verbreitung von Interaktion Bedingungen erhöht das Risiko , dass einige Hypothesentest- ein falsch positiven zufällig erzeugt. Glücklicherweise sagt die Erfahrung , dass höherwertige Interaktionen sind selten. Die Fähigkeit , Wechselwirkungen zu erfassen ist ein großer Vorteil von Vielfach ANOVA. Testen einen Faktors zu einer Zeit versteckt Interaktionen, produziert aber scheinbar widersprechende experimentelle Ergebnisse.

Vorsicht ist geboten bei Wechselwirkungen Begegnung; Test Interaktion Begriffe erste und die Analyse über ANOVA erweitern, wenn Wechselwirkungen gefunden werden. Texte unterscheiden sich in ihren Empfehlungen in Bezug auf die Fortsetzung des ANOVA Verfahrens nach einer Interaktion trifft. Wechselwirkungen erschwert die Interpretation der experimentellen Daten. Weder die Berechnungen von Bedeutung noch die geschätzten Behandlungseffekte können für bare Münze genommen werden. „Eine signifikante Interaktion wird maskiert häufig die Bedeutung der Haupteffekte.“ Grafische Verfahren werden empfohlen Verständnis zu erhöhen. Regression ist oft nützlich. Eine ausführliche Diskussion von Wechselwirkungen ist in Cox (1958) zur Verfügung. Einige Wechselwirkungen können (durch Transformationen) entfernt werden, während andere nicht können.

Eine Vielzahl von Techniken sind mit Vielfach ANOVA verwendet Kosten zu reduzieren. Eine Technik in faktoriellen Design verwendet wird , ist die Replikation zu minimieren (möglicherweise keine Replikation mit Unterstützung von analytischer List ) und Gruppen zu kombinieren , wenn Effekte gefunden werden statistisch (oder praktisch) unbedeutend. Ein Experiment mit vielen unwesentlichen Faktoren können durch viele Replikationen unterstützte in einer mit ein paar Faktoren zusammenbrechen.

Arbeitete numerische Beispiele

Mehrere voll arbeitete numerische Beispiele sind vorhanden. Ein einfacher Fall verwendet Einbahn (eine einzelne factor) Analyse. Ein komplexerer Fall verwendet zwei-Wege (zwei-factor) -Analyse.

Assoziierte Analyse

Einige Analyse wird zur Unterstützung der erforderlichen Design des Experiments , während andere Analyse durchgeführt wird , nachdem Änderungen in den Faktoren sind formal erzeugen statistisch signifikanten Veränderungen in den Antworten gefunden. Weil Experimente iterativ ist, ändern sich die Ergebnisse eines Experiments Pläne für folgende Experimente.

vorbereitende Analyse

Die Zahl der Versuchseinheiten

Bei der Gestaltung eines Experiments, wird die Anzahl der Versuchseinheiten geplant, um die Ziele des Experiments zu befriedigen. Experimentieren ist oft sequentiell.

Frühere Experimente werden oft zur Verfügung zu stellen mean-unverzerrte Schätzungen von Behandlungseffekten und dem experimentellen Fehler gestaltet. Spätere Experimente sind oft eine Hypothese testen konzipiert, die eine Therapie Wirkung einen wichtigen Betrag aufweist; in diesem Fall wird die Anzahl der Versuchseinheiten so gewählt, dass das Experiment im Rahmen des Budgets und hat eine ausreichende Stromversorgung, unter anderen Zielen.

Berichterstattung Stichprobe Analyse wird in der Regel in der Psychologie erforderlich. „Geben Sie an, Stichprobe und der Prozess, der Größe Entscheidungen führten zu probieren.“ Die Analyse, die im Versuchsprotokoll geschrieben wird, bevor das Experiment durchgeführt wird, wird in Förderanträgen und administrative Überprüfung Platten untersucht.

Neben der Power-Analyse gibt es weniger formale Methoden für die Zahl der Versuchseinheiten auswählen. Dazu gehören Verfahren, die auf grafische Begrenzen der Wahrscheinlichkeit eines falschen negativen Fehler, graphische Verfahren, basierend auf einer erwarteten Variation Anstieg (oberhalb der Residuen) und Verfahren auf der Basis eines gewünschten Intervalls sicher erzielt wird.

Power-Analyse

Power - Analyse wird im Rahmen der Varianzanalyse , um zu beurteilen , die Wahrscheinlichkeit erfolgreich Ablehnung die Nullhypothese oft angewandt , wenn wir ein gewisses ANOVA Design, Wirkung Größe der Population, Stichprobe und Signifikanzniveau annehmen. Power - Analyse kann in Studiendesign unterstützen , indem bestimmt wird, welche Stichprobe erforderlich , um würde die Nullhypothese eine vernünftige Chance der Ablehnung zu haben , wenn die alternative Hypothese wahr ist.

Effektgröße

Mehrere standardisierte Maßnahmen des Effekts wurden ANOVA zusammenzufassen, die Festigkeit der Verbindung zwischen Prädiktor (en) und der abhängigen Variablen oder die gesamte standardisierte Differenz des Gesamtmodells vorgeschlagen. Standardisierte Wirkung-size Schätzungen erleichtern den Vergleich der Erkenntnisse über Studium und Fachbereiche. Während jedoch die standardisierte Effektstärken häufig in weiten Teilen der Fachliteratur verwendet werden, eine nicht-standardisierte Messung der Wirkgröße, die direkt „sinnvolle“ Einheiten können für die Berichterstattung vorzuziehen.

Follow-up-Analyse

Es ist immer angebracht, vorsichtig Ausreißer zu betrachten. Sie haben einen überproportionalen Einfluss auf die statistische Schlussfolgerungen und sind oft das Ergebnis von Fehlern.

Modell bestätigt

Es ist ratsam , zu überprüfen, ob die Annahmen der Varianzanalyse erfüllt wurden. Residuen werden geprüft oder analysiert , um zu bestätigen homoscedasticity und grobe Normalität. Residuen sollte das Erscheinungsbild (Null durchschnittliche Normalverteilung) Lärm, wenn sie als eine Funktion der nichts mit Zeit und modellierten Daten - Werte aufgetragen. Trends deuten auf Wechselwirkungen zwischen Faktoren oder unter Beobachtung. Eine Faustregel: „Wenn die größte Standardabweichung ist kleiner als das Doppelte der kleinste Standardabweichung, können wir Methoden basiert auf der Annahme von gleichen Standardabweichungen und unsere Ergebnisse werden noch ca. korrekt sein“

Follow-up-Tests

Eine statistisch signifikante Wirkung in ANOVA wird oft mit einem oder mehreren unterschiedlichen Follow-up - Tests weiterverfolgt. Dies kann getan werden , um zu ermitteln , welche Gruppen unterschiedlich sind , von denen anderen Gruppen oder verschiedene andere gezielte Hypothesen zu testen. Follow-up - Tests werden häufig unterschieden in Hinblick darauf, ob sie geplant sind ( a priori ) oder post hoc . Geplante Tests ermittelt , bevor an den Daten suchen und post - hoc - Tests durchgeführt werden , nachdem in den Daten suchen.

Oft eine der „Behandlungen“ ist nichts, so dass die Behandlungsgruppe als Kontrolle dienen kann. Dunnett-Test (eine Modifikation des t-Test) überprüft , ob jede der anderen Behandlungsgruppen hat den gleichen Mittelwert als Kontrolle.

Post - hoc - Tests wie Tukey-Test die meisten Vergleichen häufig jede Gruppe mit jeder anderen Gruppe bedeutet bedeutet und in der Regel einige Verfahren zur Steuerung für Typ - I - Fehler übernehmen. Vergleiche, die am häufigsten geplant sind, kann entweder einfach oder zusammengesetzt sein. Einfache Vergleiche Vergleich eine Gruppe mit einer anderen Gruppe Durchschnitt nicht. Verbindung Vergleiche Vergleichen typischerweise zwei Sätze von Gruppen bedeuten , wobei ein Satz zwei oder mehr Gruppen (zB Vergleich durchschnittliche Gruppe bedeutet die Gruppe A, B und C mit der Gruppe D). Vergleiche können auch bei Tests des Trends, wie lineare und quadratische Beziehungen aussehen, wenn die unabhängigen Variable geordneten Stufen handeln.

Im Anschluss an ANOVA mit paarweise multiple-Vergleichstests wurde aus mehreren Gründen kritisiert. Es gibt viele solche Tests (10 in einer Tabelle) und Empfehlungen ihre Verwendung betreffen sind unklar oder widersprüchlich.

Study-Design

Es gibt verschiedene Arten von ANOVA. Viele Statistikern stützen ANOVA auf dem Design des Experiments , insbesondere auf dem Protokoll, das die spezifiziert zufällige Zuordnung von Behandlungen an Patienten; Die Beschreibung des Zuordnungsmechanismus Protokoll sollte eine Angabe der Struktur der Behandlungen und jegliche umfasst Blockierung . Es ist auch üblich ANOVA zu beobachtenden Daten anzuwenden , um ein angemessenes statistisches Modell.

Einige beliebte Designs verwenden die folgenden Arten von ANOVA:

  • Einweg-ANOVA wird verwendet , um auf Unterschiede zwischen zwei oder mehr zu testen , unabhängigen Gruppen (Mitteln), zB unterschiedliche Niveaus von Harnstoff - Anwendung in einer Nutzpflanze, oder unterschiedlicher Ebenen der antibiotischen Wirkung auf verschiedenen Bakterienarten oder unterschiedliche Niveaus der Wirkung einiger Medizin auf Gruppen von Patienten. Allerdings sollten diese Gruppen nicht unabhängig sein, und es ist ein Befehl in den Gruppen (wie beispielsweise milde, moderate und schwere Krankheit), oder in der Dosierung eines Arzneistoffs (wie beispielsweise 5 mg / ml, 10 mg / ml, 20 mg / mL zu der gleichen Gruppe von Patienten verabreicht), dann eine lineare Trend Schätzung verwendet werden soll. Typischerweise ist jedoch das Einweg-ANOVA wird verwendet , um auf Unterschiede zwischen wenigstens drei Gruppen zu testen, da die Zweigruppen Fall kann durch einen überzogen werden t-Tests . Wenn es nur zwei Mittel zu vergleichen, der t-Test und die ANOVA F -test entsprechen; das Verhältnis zwischen ANOVA und t ist gegeben durch F  =  t 2 .
  • Factorial ANOVA wird verwendet , wenn der Experimentator will die Wechselwirkungen zwischen den Behandlungen untersuchen.
  • Wiederholte Messungen ANOVA verwendet, wenn die gleichen Fächer für jede Behandlung verwendet werden (beispielsweise in einer Längsschnittstudie ).
  • Multivariate Varianzanalyse (MANOVA) verwendet wird , wenn es mehr als eine ist Antwortvariable .

Verwarnungen

Ausgewogene Experimente (die mit einer gleichen Stichprobe für jede Behandlung) sind relativ einfach zu interpretieren; Unausgeglichen Experimente bieten mehr Komplexität. Für Single-Faktor (Einweg-) ANOVA, ist die Einstellung für die unausgeglichenen Daten einfach, aber die unausgeglichene Analyse fehlt sowohl Widerstandsfähigkeit und Leistung. Für komplexere Designs führt die fehlende Balance zu weiteren Komplikationen. „Die Orthogonalitätseigenschaft der Haupteffekte und gegenwärtige Interaktionen in ausgewogenen Daten nicht mit dem unsymmetrischen Fall nicht übertragen. Das bedeutet , dass die übliche Analyse der Varianz Techniken nicht anwendbar ist. Folglich ist die Analyse von unausgewogen factorials viel schwieriger als die für eine ausgeglichenen Design.“ Im allgemeinen Fall : „Die Analyse der Varianz kann auch auf unausgewogene Daten angewandt werden, aber dann die Summen von Quadraten, Mean Squares und F -ratios werden von der Reihenfolge abhängen , in der die Variationsquellen in Betracht gezogen werden.“ Die einfachstenen Techniken für den Umgang mit unsymmetrischen Daten Gleichgewicht entweder durch Wiederherstellen von Daten werfen oder durch fehlende Daten zu synthetisieren. Komplexere Techniken verwenden Regression.

ANOVA ist (teilweise) einen Signifikanz-Test. Die American Psychological Association vertritt die Auffassung, die einfach Berichterstattung Signifikanz reicht nicht aus und das Vertrauen Grenzen Berichterstattung bevorzugt.

Zwar ANOVA konservativ ist (in einem Signifikanz - Niveau beibehalten wird ) gegen multiple Vergleiche in einer Dimension, ist es nicht konservativ gegen Vergleiche in mehreren Dimensionen.

Verallgemeinerungen

ANOVA wird als Sonderfall sein , linearer Regression , die wiederum ein Spezialfall des ist allgemeinen linearen Modells . Alle überlegen , die Beobachtungen der Betrag ein Modells (FIT) und einen Rest (Fehler) werden minimiert werden.

Der Kruskal-Wallis - Test und der Friedman - Test sind nichtparametrischen Tests, die auf der Annahme von Normalität verlassen sich nicht.

Der Anschluss an die lineare Regression

Im Folgenden die Verbindung zwischen ANOVA Mehrweg deutlich machen und linearer Regression. Linear neu , um die Daten so , dass Beobachtung mit einer Antwort zugeordnet ist , und Faktoren , wo die verschiedenen Faktoren bezeichnet und ist die gesamte Anzahl von Faktoren ab . In Einweg-ANOVA und in Zwei-Wege - ANOVA . Darüber hinaus gehen wir davon aus dem Faktor hat Ebene, nämlich . Jetzt können wir einen heißen kodieren der Faktoren in den dimensionalen Vektor .

Die eint hot Codierungsfunktion ist so definiert , dass das Eindringen von ist

Der Vektor ist die Verkettung aller der obigen Vektoren für alle . So . Um eine völlig allgemein zu erhalten -Wege Interaktion ANOVA müssen wir auch jede zusätzliche Interaktion Begriff in den Vektor verketten und dann einen konstanten Term hinzuzufügen. Lassen Sie das Vektor sein .

Mit dieser Schreibweise an Ort und Stelle haben wir jetzt die exakte Verbindung mit linearer Regression. Wir regredieren einfach Antwort gegen den Vektor . Allerdings gibt es Bedenken über die Identifizierbarkeit. Um solche Probleme zu überwinden , gehen wir davon aus, dass die Summe der Parameter innerhalb jeder Reihe von Interaktionen gleich Null ist. Von hier aus kann man verwenden F -Statistik oder andere Verfahren , die Relevanz der einzelnen Faktoren zu bestimmen.

Beispiel

Wir können die 2-Wege-Interaktion Beispiel betrachtet, bei dem wir annehmen, dass der erste Faktor hat 2 Ebenen und der zweite Faktor hat 3 Ebenen.

Festlegen , ob und wenn , dh die One-Hot - Kodierung des ersten Faktors ist und die One-Hot - Kodierung des zweiten Faktors.

Damit,

wo der letzte Term ist eine konstante Term. Für ein konkretes Beispiel an, dass
Dann,

Siehe auch

Fußnoten

Anmerkungen

Verweise

Weiterführende Literatur

Externe Links