Log-lineare Analyse - Log-linear analysis

Die logarithmische lineare Analyse ist eine in der Statistik verwendete Technik , um die Beziehung zwischen mehr als zwei kategorialen Variablen zu untersuchen . Die Technik wird sowohl zum Testen von Hypothesen als auch zum Erstellen von Modellen verwendet. Bei beiden Anwendungen werden Modelle getestet, um das sparsamste (dh am wenigsten komplexe) Modell zu finden, das die Varianz der beobachteten Frequenzen am besten berücksichtigt. (Ein Pearson-Chi-Quadrat-Test könnte anstelle einer logarithmischen linearen Analyse verwendet werden, aber mit dieser Technik können nur zwei der Variablen gleichzeitig verglichen werden.)

Anpassungskriterium

Die logarithmisch-lineare Analyse verwendet eine Likelihood-Ratio- Statistik , die bei großen Stichproben eine ungefähre Chi-Quadrat-Verteilung aufweist :

wo

natürlicher Logarithmus ;
beobachtete Häufigkeit in Zelle ij ( i = Zeile und j = Spalte);
erwartete Frequenz in Zelle ij .
die Abweichung für das Modell.

Annahmen

Bei der logarithmischen linearen Analyse gibt es drei Annahmen:

1. Die Beobachtungen sind unabhängig und zufällig ;

2. Die beobachteten Frequenzen sind normalerweise über die erwarteten Frequenzen über wiederholte Abtastwerte verteilt. Dies ist eine gute Annäherung, wenn beide (a) die erwarteten Frequenzen für 80% oder mehr der Kategorien größer oder gleich 5 sind und (b) alle erwarteten Frequenzen größer als 1 sind. Verstöße gegen diese Annahme führen zu einer starken Verringerung von Leistung. Vorgeschlagene Lösungen für diesen Verstoß sind: Löschen einer Variablen, Kombinieren der Ebenen einer Variablen (z. B. Zusammenfügen von Männern und Frauen) oder Sammeln weiterer Daten.

3. Der Logarithmus des erwarteten Werts der Antwortvariablen ist eine lineare Kombination der erklärenden Variablen. Diese Annahme ist so grundlegend, dass sie selten erwähnt wird, aber wie die meisten Linearitätsannahmen ist sie selten genau und wird oft einfach gemacht, um ein nachvollziehbares Modell zu erhalten.

Darüber hinaus sollten Daten immer kategorisch sein. Kontinuierliche Daten können zunächst mit einem gewissen Informationsverlust in kategoriale Daten konvertiert werden. Bei kontinuierlichen und kategorialen Daten ist es am besten, die logistische Regression zu verwenden . (Alle Daten, die mit einer logarithmischen linearen Analyse analysiert werden, können auch mit einer logistischen Regression analysiert werden. Die gewählte Technik hängt von den Forschungsfragen ab.)

Variablen

Bei der logarithmischen linearen Analyse gibt es keine klare Unterscheidung zwischen den unabhängigen oder abhängigen Variablen. Die Variablen werden gleich behandelt. Oft führt der theoretische Hintergrund der Variablen jedoch dazu, dass die Variablen entweder als unabhängige oder als abhängige Variablen interpretiert werden.

Modelle

Das Ziel der logarithmischen linearen Analyse besteht darin, zu bestimmen, welche Modellkomponenten beibehalten werden müssen, um die Daten bestmöglich zu berücksichtigen. Modellkomponenten sind die Anzahl der Haupteffekte und Wechselwirkungen im Modell. Wenn wir beispielsweise die Beziehung zwischen drei Variablen untersuchen - Variable A, Variable B und Variable C -, enthält das gesättigte Modell sieben Modellkomponenten. Die drei Haupteffekte (A, B, C), die drei Zwei-Wege-Wechselwirkungen (AB, AC, BC) und die eine Drei-Wege-Wechselwirkung (ABC) ergeben die sieben Modellkomponenten.

Man kann sich vorstellen, dass sich die logarithmisch linearen Modelle auf einem Kontinuum befinden, wobei die beiden Extreme das einfachste Modell und das gesättigte Modell sind . Das einfachste Modell ist das Modell, bei dem alle erwarteten Frequenzen gleich sind. Dies gilt, wenn die Variablen nicht miteinander verknüpft sind. Das gesättigte Modell ist das Modell, das alle Modellkomponenten enthält. Dieses Modell erklärt die Daten immer am besten, ist jedoch am wenigsten sparsam, da alles enthalten ist. In diesem Modell entsprechen die beobachteten Frequenzen den erwarteten Frequenzen, daher in der Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses das Verhältnis und . Dies führt dazu, dass die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses gleich 0 ist, was die beste Modellanpassung darstellt. Andere mögliche Modelle sind das Modell der bedingten Gleichwahrscheinlichkeit und das Modell der gegenseitigen Abhängigkeit.

Jedes logarithmisch-lineare Modell kann als logarithmisch-lineare Gleichung dargestellt werden. Beispielsweise hat das gesättigte Modell mit den drei Variablen ( A , B , C ) die folgende logarithmische lineare Gleichung:

wo

erwartete Häufigkeit in Zelle ijk ;
das relative Gewicht jeder Variablen.

Hierarchisches Modell

Log-lineare Analysemodelle können hierarchisch oder nicht hierarchisch sein. Hierarchische Modelle sind am häufigsten. Diese Modelle enthalten alle Wechselwirkungen niedrigerer Ordnung und die Haupteffekte der zu untersuchenden Wechselwirkung.

Grafisches Modell

Ein logarithmisch lineares Modell ist grafisch, wenn das Modell immer dann, wenn das Modell alle durch eine Interaktion höherer Ordnung erzeugten Zwei-Faktor-Terme enthält, auch die Interaktion höherer Ordnung enthält. Als direkte Konsequenz sind grafische Modelle hierarchisch. Darüber hinaus kann ein grafisches Modell, das vollständig durch seine Zwei-Faktor-Terme bestimmt wird, durch einen ungerichteten Graphen dargestellt werden, wobei die Eckpunkte die Variablen und die Kanten die im Modell enthaltenen Zwei-Faktor-Terme darstellen.

Zersetzbares Modell

Ein logarithmisch lineares Modell kann zerlegt werden, wenn es grafisch ist und wenn das entsprechende Diagramm akkordisch ist .

Modell fit

Das Modell passt gut, wenn die Residuen (dh beobachtet-erwartet) nahe bei 0 liegen, dh je näher die beobachteten Frequenzen an den erwarteten Frequenzen liegen, desto besser passt das Modell. Wenn die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses nicht signifikant ist, passt das Modell gut (dh die berechneten erwarteten Frequenzen liegen nahe an den beobachteten Frequenzen). Wenn die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses signifikant ist, passt das Modell nicht gut (dh die berechneten erwarteten Frequenzen liegen nicht nahe an den beobachteten Frequenzen).

Die Rückwärtseliminierung wird verwendet, um zu bestimmen, welche der Modellkomponenten beibehalten werden müssen, um die Daten am besten zu berücksichtigen. Die logarithmisch-lineare Analyse beginnt mit dem gesättigten Modell und die Wechselwirkungen höchster Ordnung werden entfernt, bis das Modell nicht mehr genau zu den Daten passt. Insbesondere wird in jeder Phase nach dem Entfernen der Interaktion mit der höchsten Ordnung die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses berechnet, um zu messen, wie gut das Modell zu den Daten passt. Die Wechselwirkungen mit der höchsten Ordnung werden nicht mehr entfernt, wenn die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses signifikant wird.

Modelle vergleichen

Wenn zwei Modelle verschachtelt sind , können Modelle auch mit einem Chi-Quadrat-Differenztest verglichen werden. Der Chi-Quadrat-Differenztest wird berechnet, indem die Chi-Quadrat-Statistik des Wahrscheinlichkeitsverhältnisses für die beiden verglichenen Modelle subtrahiert wird. Dieser Wert wird dann mit dem kritischen Chi-Quadrat-Wert bei ihrem Unterschied in den Freiheitsgraden verglichen. Wenn die Chi-Quadrat-Differenz kleiner als der kritische Chi-Quadrat-Wert ist, passt das neue Modell deutlich besser zu den Daten und ist das bevorzugte Modell. Andernfalls wird das weniger sparsame Modell bevorzugt, wenn die Chi-Quadrat-Differenz größer als der kritische Wert ist.

Folgetests

Sobald das Modell der besten Anpassung bestimmt ist, wird die Wechselwirkung höchster Ordnung untersucht, indem Chi-Quadrat-Analysen auf verschiedenen Ebenen einer der Variablen durchgeführt werden. Um Chi-Quadrat-Analysen durchzuführen, muss das Modell in eine 2 × 2- oder 2 × 1- Kontingenztabelle unterteilt werden .

Wenn man beispielsweise die Beziehung zwischen vier Variablen untersucht und das Modell der besten Anpassung eine der Drei-Wege-Wechselwirkungen enthält, würde man seine einfachen Zwei-Wege-Wechselwirkungen auf verschiedenen Ebenen der dritten Variablen untersuchen.

Effektgrößen

Um die Effektgrößen der Wechselwirkungen zwischen den Variablen zu vergleichen, werden Quotenverhältnisse verwendet. Quotenverhältnisse werden aus zwei Hauptgründen der Chi-Quadrat-Statistik vorgezogen:

1. Die Quotenverhältnisse sind unabhängig von der Stichprobengröße.

2. Quotenverhältnisse werden durch ungleiche Randverteilungen nicht beeinflusst.

Software

Für Datensätze mit wenigen Variablen - allgemeine logarithmische lineare Modelle

Für Datensätze mit Hunderten von Variablen - zerlegbare Modelle

Siehe auch

Verweise

Weiterführende Literatur

  • Log-lineare Modelle
  • Simkiss, D.; Ebrahim, GJ; Waterston, AJR (Hrsg.) "Kapitel 14: Analyse kategorialer Daten: Log-lineare Analyse". Journal of Tropical Pediatrics , Online-Bereich „Forschungsmethoden II: Multivariate Analyse“ (S. 144–153). Abgerufen im Mai 2012 von http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf
  • Pugh, MD (1983). "Mitwirkende Schuld- und Vergewaltigungsverurteilungen: Log-lineare Modelle zur Schuldzuweisung an das Opfer". Social Psychology Quarterly, 46 , 233–242. JSTOR   3033794
  • Tabachnick, BG & Fidell, LS (2007). Verwenden multivariater Statistiken (5. Ausgabe). New York, NY: Allyn und Bacon.