Erklärte Variation - Explained variation

In Statistiken , erläuterte Variation misst den Anteil an dem ein mathematisches Modell für die Variation Konten ( Dispersion ) eines Datensatzes angegeben. Oft wird Variation als Varianz quantifiziert ; dann kann der spezifischere Begriff erklärte Varianz verwendet werden.

Der komplementäre Teil der Gesamtvariation wird als ungeklärte oder Restvariation bezeichnet .

Definition in Bezug auf Informationsgewinn

Informationsgewinn durch bessere Modellierung

Nach Kent (1983) verwenden wir die Fraser-Informationen (Fraser 1965)

Dabei ist die Wahrscheinlichkeitsdichte einer Zufallsvariablen und mit ( ) sind zwei Familien parametrischer Modelle. Die Modellfamilie 0 ist die einfachere mit einem eingeschränkten Parameterraum .

Die Parameter werden durch Maximum-Likelihood-Schätzung bestimmt .

Der Informationsgewinn von Modell 1 gegenüber Modell 0 wird wie folgt geschrieben

wobei der Einfachheit halber ein Faktor von 2 enthalten ist. Γ ist immer nicht negativ; es misst das Ausmaß, in dem das beste Modell der Familie 1 besser ist als das beste Modell der Familie 0 bei der Erklärung von g ( r ).

Informationsgewinn durch ein bedingtes Modell

Angenommen, eine zweidimensionale Zufallsvariable, wobei X als erklärende Variable und Y als abhängige Variable betrachtet werden soll. Modelle der Familie 1 "erklären" Y in Form von X ,

,

Während in Familie 0 angenommen wird, dass X und Y unabhängig sind. Wir definieren die Zufälligkeit von Y durch und die Zufälligkeit von Y bei X durch . Dann,

kann als Anteil der Datendispersion interpretiert werden, der durch X "erklärt" wird .

Sonderfälle und allgemeine Verwendung

Lineare Regression

Der ungeklärte Anteil der Varianz ist ein etabliertes Konzept im Kontext der linearen Regression . Die übliche Definition des Bestimmungskoeffizienten basiert auf dem Grundkonzept der erklärten Varianz.

Korrelationskoeffizient als Maß für die erklärte Varianz

Sei X ein Zufallsvektor und Y eine Zufallsvariable, die durch eine Normalverteilung mit Zentrum modelliert wird . In diesem Fall entspricht der oben abgeleitete Anteil der erklärten Variation dem quadratischen Korrelationskoeffizienten .

Beachten Sie die starken Modellannahmen: Das Zentrum der Y- Verteilung muss eine lineare Funktion von X sein , und für jedes gegebene x muss die Y- Verteilung normal sein. In anderen Situationen ist es im Allgemeinen nicht gerechtfertigt, als Anteil der erklärten Varianz zu interpretieren .

In der Hauptkomponentenanalyse

Die erklärte Varianz wird routinemäßig in der Hauptkomponentenanalyse verwendet . Die Beziehung zum Fraser-Kent-Informationsgewinn muss noch geklärt werden.

Kritik

Da der Anteil der "erklärten Varianz" dem quadratischen Korrelationskoeffizienten entspricht , teilt er alle Nachteile des letzteren: Er spiegelt nicht nur die Qualität der Regression wider, sondern auch die Verteilung der unabhängigen (Konditionierungs-) Variablen.

Mit den Worten eines Kritikers: "So ergibt sich der durch die Regression erklärte 'Prozentsatz der Varianz', ein Ausdruck, der für die meisten Sozialwissenschaftler von zweifelhafter Bedeutung, aber von großem rhetorischen Wert ist. Wenn diese Zahl groß ist, ergibt die Regression ein Gut passen, und es macht wenig Sinn, nach zusätzlichen Variablen zu suchen. Andere Regressionsgleichungen für verschiedene Datensätze gelten als weniger zufriedenstellend oder weniger leistungsfähig, wenn sie niedriger sind. Nichts über diese Behauptungen wird unterstützt. " Und nach der Erstellung eines Beispiels, in dem nur durch die gemeinsame Berücksichtigung von Daten aus zwei verschiedenen Populationen Folgendes verbessert wird: "'Erklärte Varianz' erklärt nichts."

Siehe auch

Verweise

Externe Links