ANOVA - simultane Komponentenanalyse - ANOVA–simultaneous component analysis

Varianzanalyse - Die simultane Komponentenanalyse ( ASCA oder ANOVA-SCA ) ist eine Methode, die Variationen partitioniert und die Interpretation dieser Partitionen durch SCA ermöglicht. Diese Methode ähnelt der Hauptkomponentenanalyse (PCA) . Diese Methode ist eine multivariate oder sogar megavariate Erweiterung der Varianzanalyse (ANOVA) . Die Variationspartitionierung ähnelt ANOVA. Jede Partition entspricht allen Variationen, die durch einen Effekt oder Faktor hervorgerufen werden , normalerweise ein Behandlungsschema oder eine experimentelle Bedingung. Die berechneten Effektpartitionen werden als Effektschätzungen bezeichnet. Da selbst die Effektschätzungen multivariat sind, ist die Interpretation dieser Effektschätzungen nicht intuitiv. Durch Anwenden von SCA auf die Effektschätzungen erhält man ein einfach interpretierbares Ergebnis. Bei mehr als einem Effekt schätzt diese Methode die Effekte so, dass die verschiedenen Effekte nicht korrelieren.

Einzelheiten

Viele Forschungsbereiche sehen in nur wenigen Stichproben eine immer größere Anzahl von Variablen . Das niedrige Verhältnis von Probe zu Variable erzeugt Probleme, die als Multikollinearität und Singularität bekannt sind . Aus diesem Grund können die meisten herkömmlichen multivariaten statistischen Methoden nicht angewendet werden.

ASCA-Algorithmus

In diesem Abschnitt wird beschrieben, wie das ASCA-Modell für zwei Haupteffekte mit einem Interaktionseffekt berechnet wird. Es ist einfach, die erklärte Begründung auf mehr Haupteffekte und mehr Interaktionseffekte auszudehnen. Wenn der erste Effekt die Zeit und der zweite Effekt die Dosierung ist, besteht nur die Wechselwirkung zwischen Zeit und Dosierung. Wir gehen davon aus, dass es vier Zeitpunkte und drei Dosierungsstufen gibt.

Sei X eine Matrix , die die Daten enthält. X ist mittelzentriert und hat somit null mittlere Spalten . A und B bezeichnen die Haupteffekte und AB die Wechselwirkung dieser Effekte. Zwei Haupteffekte in einem biologischen Experiment können Zeit (A) und pH (B) sein, und diese beiden Effekte können interagieren. Bei der Gestaltung solcher Experimente werden die Haupteffekte auf mehrere (mindestens zwei) Ebenen gesteuert. Die verschiedenen Niveaus eines Effekts können als A1, A2, A3 und A4 bezeichnet werden, was 2, 3, 4, 5 Stunden nach Beginn des Experiments entspricht. Das Gleiche gilt für Effekt B, zum Beispiel können pH 6, pH 7 und pH 8 als Effektniveaus betrachtet werden.

A und B müssen ausgeglichen sein, wenn die Effektschätzungen orthogonal und die Partitionierung eindeutig sein müssen. Matrix E enthält die Informationen, die keinem Effekt zugeordnet sind. Die Partitionierung ergibt die folgende Notation:

Berechnung der Haupteffektschätzung A (oder B)

Suchen Sie alle Zeilen, die dem Effekt A Level 1 entsprechen, und mitteln Sie diese Zeilen. Das Ergebnis ist ein Vektor . Wiederholen Sie dies für die anderen Effektstufen. Erstellen Sie eine neue Matrix mit der gleichen Größe von X und platzieren Sie die berechneten Durchschnittswerte in den übereinstimmenden Zeilen. Das heißt, geben Sie allen Zeilen, die mit Effekt (dh) Stufe 1 übereinstimmen, den Durchschnitt von Wirkung A Stufe 1 an. Führen Sie nach Abschluss der Stufenschätzungen für den Effekt eine SCA durch. Die Bewertungen dieses SCA sind die Stichprobenabweichungen für den Effekt, die wichtigen Variablen dieses Effekts liegen in den Gewichten des SCA-Ladevektors.

Berechnung der Wechselwirkungseffektschätzung AB

Das Schätzen des Interaktionseffekts ähnelt dem Schätzen der Haupteffekte. Der Unterschied besteht darin, dass für Interaktionsschätzungen die Zeilen, die mit Effekt A Level 1 übereinstimmen, mit Effekt B Level 1 kombiniert werden und alle Kombinationen von Effekten und Levels durchlaufen werden. In unserer Beispieleinstellung gibt es mit vier Zeitpunkten und drei Dosierungsstufen 12 Interaktionssätze {A1-B1, A1B2, A2B1, A2B2 usw.). Es ist wichtig, die Haupteffekte zu entleeren (zu entfernen), bevor der Interaktionseffekt abgeschätzt wird.

SCA auf Partitionen A, B und AB

Die simultane Komponentenanalyse ist mathematisch identisch mit PCA, unterscheidet sich jedoch semantisch darin, dass verschiedene Objekte oder Subjekte gleichzeitig modelliert werden. Die Standardnotation für ein SCA- und PCA-Modell lautet:

Dabei sind X die Daten, T die Komponentenbewertungen und P die Komponentenladungen. E ist die Rest- oder Fehlermatrix . Da ASCA die Variationspartitionen nach SCA modelliert, sieht das Modell für Effektschätzungen folgendermaßen aus:

Beachten Sie, dass jede Partition eine eigene Fehlermatrix hat. Die Algebra schreibt jedoch vor, dass in einem ausgeglichenen, mittelzentrierten Datensatz jedes System mit zwei Ebenen Rang 1 hat. Dies führt zu null Fehlern, da jede Matrix mit Rang 1 als Produkt einer Einzelkomponentenbewertung und eines Ladevektors geschrieben werden kann.

Das vollständige ASCA-Modell mit zwei Effekten und Interaktionen einschließlich des SCA sieht folgendermaßen aus:

Zersetzung:

Zeit als Effekt

Da 'Zeit' als qualitativer Faktor in der ANOVA-Zerlegung vor ASCA behandelt wird, kann eine nichtlineare multivariate Zeittrajektorie modelliert werden. Ein Beispiel hierfür ist in Abbildung 10 dieser Referenz dargestellt.

Verweise