Zwei-Wege-Varianzanalyse - Two-way analysis of variance

In der Statistik ist die Zweiwege- Varianzanalyse ( ANOVA ) eine Erweiterung der Einweg-ANOVA , die den Einfluss zweier verschiedener kategorialer unabhängiger Variablen auf eine stetige abhängige Variable untersucht . Die Zwei-Wege-ANOVA zielt nicht nur darauf ab, den Haupteffekt jeder unabhängigen Variablen zu bewerten , sondern auch, ob es eine Interaktion zwischen ihnen gibt.

Geschichte

1925 erwähnt Ronald Fisher die Zweiwege-ANOVA in seinem berühmten Buch Statistical Methods for Research Workers (Kapitel 7 und 8). 1934 veröffentlichte Frank Yates Verfahren für den unausgeglichenen Fall. Seitdem ist eine umfangreiche Literatur entstanden. Das Thema wurde 1993 von Yasunori Fujikoshi überprüft . 2005 schlug Andrew Gelman einen anderen Ansatz der ANOVA vor, der als Mehrebenenmodell betrachtet wird .

Datensatz

Stellen wir uns einen Datensatz vor, bei dem eine abhängige Variable durch zwei Faktoren beeinflusst werden kann , die potenzielle Variationsquellen darstellen. Der erste Faktor hat Stufen ( ) und der zweite hat Stufen ( ) . Jede Kombination definiert eine Behandlung für insgesamt Behandlungen. Wir stellen die Anzahl der Replikate für die Behandlung durch dar und seien der Index des Replikats in dieser Behandlung ( ) . $I$ $i\in\{1,\ldots ,I\}$ $J$ $j\in\{1,\ldots,J\}$ $(i,j)$ $I\times J$ $(i,j)$ $n_{ij}$ $k$ $k\in\{1,\ldots,n_{ij}\}$

Aus diesen Daten können wir eine Kontingenztabelle erstellen , wobei und , und die Gesamtzahl der Replikate gleich ist . $n_{i+}=\sum_{j=1}^{J}n_{ij}$ $n_{+j}=\sum _{i=1}^{I}n_{ij}$ $n=\sum_{i,j}n_{ij}=\sum_{i}n_{i+}=\sum_{j}n_{+j}$

Das Versuchsdesign ist ausgewogen, wenn jede Behandlung die gleiche Anzahl von Wiederholungen hat, . In einem solchen Fall wird das Design auch als orthogonal bezeichnet , wodurch die Auswirkungen beider Faktoren vollständig unterschieden werden können. Wir können daher schreiben und . $K$ $\forall i,j\;n_{ij}=K$ $\forall i,j\;n_{ij}={\frac {n_{i+}\cdot n_{+j}}{n}}$

Modell

Beim Beobachten der Variation zwischen allen Datenpunkten, beispielsweise über ein Histogramm , kann " Wahrscheinlichkeit verwendet werden, um eine solche Variation zu beschreiben". Bezeichnen wir daher mit der Zufallsvariablen, welcher beobachtete Wert das -te Maß für die Behandlung ist . Die Zwei-Wege-ANOVA modelliert alle diese Variablen als unabhängig und normalerweise um einen Mittelwert variierend , mit einer konstanten Varianz ( Homoskedastizität ): $n$ $Y_{ijk}$ $y_{ijk}$ $k$ $(i,j)$ $\mu_{ij}$ $\sigma ^{2}$

$Y_{ijk}\,|\,\mu_{ij},\sigma ^{2}\;{\overset {\mathrm {iid} }{\sim}}\;{\mathcal {N} }(\mu_{ij},\sigma^{2})$ .

Konkret wird der Mittelwert der Antwortvariablen als Linearkombination der erklärenden Variablen modelliert:

$\mu_{ij}=\mu+\alpha_{i}+\beta_{j}+\gamma_{ij}$ ,

wo der Gesamtmittelwert ist, ist der additive Effekt der Hauptebene von dem ersten Faktor ( i -ten Zeile in der Kontingenz - Tabelle), ist der additive Effekt der Hauptstufe aus dem zweiten Faktor ( j -ten Spalte in der Kontingenztabelle) und ist der nicht-additive Interaktionseffekt der Behandlung aus beiden Faktoren (Zelle in Zeile i und Spalte j in der Kontingenztabelle). ${\displaystyle\mu}$ $\alpha_{i}$ $i$ $\beta_{j}$ $j$ $\gamma_{ij}$ $(i,j)$

Eine andere äquivalente Art, die Zweiwege-ANOVA zu beschreiben, besteht darin, zu erwähnen, dass neben der durch die Faktoren erklärten Variation noch ein gewisses statistisches Rauschen verbleibt . Diese Menge an unerklärlichen Variationen wird durch die Einführung einer Zufallsvariablen pro Datenpunkt , genannt error, gehandhabt . Diese Zufallsvariablen werden als Abweichungen vom Mittelwert angesehen und als unabhängig und normalverteilt angenommen: $\epsilon_{ijk}$ $n$

$Y_{ijk}=\mu_{ij}+\epsilon_{ijk}{\text{ with }}\epsilon_{ijk}{\overset {\mathrm {iid} }{\sim}}{ \mathcal{N}}(0,\sigma^{2})$ .

Annahmen

Nach Gelman und Hill sind die Annahmen der ANOVA und allgemeiner des allgemeinen linearen Modells in absteigender Bedeutung:

die Datenpunkte sind im Hinblick auf die zu untersuchende wissenschaftliche Fragestellung relevant;
der Mittelwert der Antwortvariablen wird additiv (wenn nicht Interaktionsterm) und linear durch die Faktoren beeinflusst;
die Fehler sind unabhängig;
die Fehler haben die gleiche Varianz;
die Fehler sind normalverteilt.

Parameter Schätzung

Um die Identifizierbarkeit von Parametern sicherzustellen , können wir die folgenden "Summe-to-Null"-Beschränkungen hinzufügen:

$\sum_{i}\alpha_{i}=\sum_{j}\beta_{j}=\sum_{i}\gamma_{ij}=\sum_{j}\gamma _{ij}=0$

Hypothesentest

Beim klassischen Ansatz wird das Testen von Nullhypothesen (dass die Faktoren keine Wirkung haben) über ihre Signifikanz erreicht, was die Berechnung von Quadratsummen erfordert .

Das Testen, ob der Interaktionsterm signifikant ist, kann aufgrund der potenziell großen Anzahl von Freiheitsgraden schwierig sein .

Siehe auch

Varianzanalyse
F-Test ( beinhaltet ein Einweg-ANOVA-Beispiel )
Gemischtes Modell
Multivariate Varianzanalyse (MANOVA)
Einweg-ANOVA
Wiederholte Messungen ANOVA
Tukeys Additivitätstest

Anmerkungen

Verweise

George Casella (18. April 2008). Statistisches Design . Springer-Texte in der Statistik. Springer . ISBN 978-0-387-75965-4.

Languages

In other projects