Freiheitsgrade (Statistik) - Degrees of freedom (statistics)

In der Statistik ist die Anzahl der Freiheitsgrade die Anzahl der Werte in der endgültigen Berechnung einer Statistik , die frei variieren können.

Die Anzahl der unabhängigen Wege, auf denen sich ein dynamisches System bewegen kann, ohne eine ihm auferlegte Beschränkung zu verletzen, wird als Anzahl der Freiheitsgrade bezeichnet. Mit anderen Worten, die Anzahl der Freiheitsgrade kann als die minimale Anzahl unabhängiger Koordinaten definiert werden, die den Phasenraum , dh Positionen und Impuls in der klassischen Mechanik , des Systems vollständig angeben können .

Schätzungen statistischer Parameter können auf unterschiedlichen Informations- oder Datenmengen basieren. Die Anzahl der unabhängigen Informationen, die in die Schätzung eines Parameters eingehen, werden als Freiheitsgrade bezeichnet. Im Allgemeinen sind die Freiheitsgrade einer Schätzung eines Parameters gleich der Anzahl der unabhängigen Bewertungen , die in die Schätzung eingehen, abzüglich der Anzahl der Parameter, die als Zwischenschritte bei der Schätzung des Parameters selbst verwendet werden (meistens ist die Stichprobenvarianz hat N  − 1 Freiheitsgrade, da er aus N zufälligen Werten minus dem einzigen als Zwischenschritt geschätzten Parameter, dem Stichprobenmittelwert, berechnet wird).

Mathematisch sind Freiheitsgrade die Anzahl der Dimensionen der Domäne eines Zufallsvektors oder im Wesentlichen die Anzahl der "freien" Komponenten (wie viele Komponenten müssen bekannt sein, bevor der Vektor vollständig bestimmt ist).

Der Begriff wird am häufigsten im Zusammenhang mit linearen Modellen ( lineare Regression , Varianzanalyse ) verwendet, bei denen bestimmte Zufallsvektoren darauf beschränkt sind, in linearen Unterräumen zu liegen und die Anzahl der Freiheitsgrade die Dimension des Unterraums ist . Die Freiheitsgrade sind auch allgemein mit den quadrierten Längen (oder "Quadratsummen" der Koordinaten) solcher Vektoren und den Parametern von Chi-Quadrat- und anderen Verteilungen verbunden, die bei zugehörigen statistischen Testproblemen auftreten.

Während einführende Lehrbücher Freiheitsgrade als Verteilungsparameter oder durch Hypothesentests einführen können, ist es die zugrunde liegende Geometrie, die Freiheitsgrade definiert und für ein richtiges Verständnis des Konzepts entscheidend ist.

Geschichte

Obwohl das Grundkonzept der Freiheitsgrade bereits 1821 im Werk des deutschen Astronomen und Mathematikers Carl Friedrich Gauß erkannt wurde , wurde seine moderne Definition und Verwendung zuerst vom englischen Statistiker William Sealy Gosset in seinem Biometrie- Artikel "The Probable Error of ." von 1908 ausgearbeitet a Mean", veröffentlicht unter dem Pseudonym "Student". Während Gosset den Begriff „Freiheitsgrade“ nicht wirklich verwendet, erklärt er das Konzept im Zuge der Entwicklung der sogenannten Student-t-Verteilung . Der Begriff selbst wurde von dem englischen Statistiker und Biologen Ronald Fisher populär gemacht , beginnend mit seiner Arbeit über Chi-Quadrate von 1922.

Notation

In Gleichungen ist das typische Symbol für Freiheitsgrade ν ( griechischer Kleinbuchstabe nu ). In Texten und Tabellen wird häufig die Abkürzung „df“ verwendet. RA Fisher verwendete n , um Freiheitsgrade zu symbolisieren, aber die moderne Verwendung reserviert normalerweise n für die Stichprobengröße.

Von zufälligen Vektoren

Geometrisch können die Freiheitsgrade als Dimension bestimmter Vektorunterräume interpretiert werden. Nehmen wir als Ausgangspunkt an, dass wir eine Stichprobe unabhängiger normalverteilter Beobachtungen haben,

Dies kann als n- dimensionaler Zufallsvektor dargestellt werden :

Da dieser Zufallsvektor überall im n- dimensionalen Raum liegen kann , hat er n Freiheitsgrade.

Nun sei der Stichprobenmittelwert . Der Zufallsvektor kann als Summe aus dem Stichprobenmittelwert plus einem Vektor von Residuen zerlegt werden:

Der erste Vektor auf der rechten Seite ist auf ein Vielfaches des Vektors von Einsen beschränkt, und die einzige freie Größe ist . Es hat daher 1 Freiheitsgrad.

Der zweite Vektor wird durch die Beziehung eingeschränkt . Die ersten n  − 1 Komponenten dieses Vektors können alles sein. Sobald Sie jedoch die ersten n  − 1 Komponenten kennen, sagt Ihnen die Einschränkung den Wert der n- ten Komponente. Daher hat dieser Vektor n  − 1 Freiheitsgrade.

Mathematisch ist der erste Vektor die Schrägprojektion des Datenvektors auf den Unterraum , der von dem Vektor der Einsen aufgespannt wird. Der 1. Freiheitsgrad ist die Dimension dieses Unterraums. Der zweite Restvektor ist die Least-Squares-Projektion auf das ( n  − 1)-dimensionale orthogonale Komplement dieses Unterraums und hat n  − 1 Freiheitsgrade.

Bei statistischen Testanwendungen interessiert man sich oft nicht direkt für die Komponentenvektoren, sondern eher für ihre quadrierten Längen. In dem obigen Beispiel die Restsumme der Quadrate sind

Sind die Datenpunkte normalverteilt mit Mittelwert 0 und Varianz , dann hat die Residualquadratsumme eine skalierte Chi-Quadrat-Verteilung (skaliert um den Faktor ), mit n  − 1 Freiheitsgraden. Die Freiheitsgrade, hier ein Parameter der Verteilung, können immer noch als Dimension eines darunterliegenden Vektorunterraums interpretiert werden.

Ebenso die t- Test- Statistik für eine Stichprobe ,

folgt einer Student-t- Verteilung mit n  − 1 Freiheitsgraden, wenn der hypothetische Mittelwert korrekt ist. Auch hier ergeben sich die Freiheitsgrade aus dem Restvektor im Nenner.

In Strukturgleichungsmodellen

Wenn die Ergebnisse von Strukturgleichungsmodellen (SEM) präsentiert werden, enthalten sie im Allgemeinen einen oder mehrere Indizes der Gesamtmodellanpassung, von denen der häufigste eine χ 2 -Statistik ist. Dies bildet die Grundlage für weitere Indizes, die häufig gemeldet werden. Obwohl diese anderen Statistiken am häufigsten interpretiert werden, sind die Freiheitsgrade von χ 2 für das Verständnis der Modellanpassung sowie der Natur des Modells selbst wesentlich.

Freiheitsgrade im SEM werden als Differenz zwischen der Anzahl eindeutiger Informationen, die als Eingabe in die Analyse verwendet werden, manchmal bekannt als bekannt, und der Anzahl der eindeutig geschätzten Parameter, manchmal als unbekannt bezeichnet, berechnet. In einer einfaktoriellen Bestätigungsfaktoranalyse mit 4 Items gibt es beispielsweise 10 bekannte (die sechs eindeutigen Kovarianzen zwischen den vier Items und die vier Itemvarianzen) und 8 Unbekannte (4 Faktorladungen und 4 Fehlervarianzen) für 2 Grad von Freiheit. Freiheitsgrade für das Verständnis der Modellanpassung sind wichtig, wenn aus keinem anderen Grund als das, ceteris paribus, desto weniger Freiheitsgrade, desto besser Indizes wie & chi; 2 sein wird.

Es hat sich gezeigt, dass die Leser von Artikeln, die SEMs enthalten, Freiheitsgrade verwenden können, um festzustellen, ob die Autoren dieser Artikel tatsächlich die korrekten Modellanpassungsstatistiken angeben. In den Organisationswissenschaften zum Beispiel berichtet fast die Hälfte der in Top-Journalen veröffentlichten Artikel über Freiheitsgrade, die mit den dort beschriebenen Modellen nicht übereinstimmen, sodass sich der Leser fragt, welche Modelle tatsächlich getestet wurden.

Von Residuen

Freiheitsgrade werden häufig als die Anzahl unabhängiger Informationen verstanden, die zum Schätzen einer anderen Information verfügbar sind. Konkreter ist die Anzahl der Freiheitsgrade die Anzahl unabhängiger Beobachtungen in einer Datenstichprobe, die verfügbar ist, um einen Parameter der Grundgesamtheit zu schätzen, aus der diese Stichprobe gezogen wird. Wenn wir beispielsweise zwei Beobachtungen haben, haben wir bei der Berechnung des Mittelwerts zwei unabhängige Beobachtungen; Bei der Berechnung der Varianz haben wir jedoch nur eine unabhängige Beobachtung, da die beiden Beobachtungen gleich weit vom Stichprobenmittelwert entfernt sind.

Beim Anpassen statistischer Modelle an Daten sind die Vektoren der Residuen darauf beschränkt, in einem Raum kleinerer Dimension als die Anzahl der Komponenten im Vektor zu liegen. Diese kleinere Dimension ist die Anzahl der Freiheitsgrade für Fehler , auch Restfreiheitsgrade genannt .

Beispiel

Das vielleicht einfachste Beispiel ist dieses. Annehmen

sind Zufallsvariablen mit jeweils Erwartungswert μ , und sei

sei der "Beispielmittelwert". Dann die Mengen

sind Residuen, die als Schätzungen der Fehler X i  −  μ angesehen werden können . Die Summe der Residuen (im Gegensatz zur Summe der Fehler) ist notwendigerweise 0. Kennt man die Werte von beliebigen n  − 1 der Residuen, kann man somit den letzten finden. Das bedeutet, dass sie in einem Raum der Dimension n  − 1 liegen müssen. Man sagt, dass es n  − 1 Freiheitsgrade für Fehler gibt.

Ein nur etwas weniger einfaches Beispiel ist die Schätzung der kleinsten Quadrate von a und b im Modell

wobei x i gegeben ist, aber e i und damit Y i zufällig sind. Seien und die Kleinste-Quadrate-Schätzungen von a und b . Dann die Reste

sind darauf beschränkt, innerhalb des durch die beiden Gleichungen definierten Raums zu liegen

Man sagt, dass es n  − 2 Freiheitsgrade für Fehler gibt.

Notationell wird der Großbuchstabe Y bei der Angabe des Modells verwendet, während Kleinbuchstaben y bei der Definition der Residuen verwendet werden; Das liegt daran, dass erstere hypothetische Zufallsvariablen und letztere tatsächliche Daten sind.

Wir können dies auf multiple Regression denen verallgemeinern p Parameter und Kovariaten (zB p  - 1 Prädiktoren und einem Mittelwert (= Intercept in der Regression)), wobei in diesem Fall die Kosten in Freiheitsgrade des Sitzes ist p , so dass n - p Grad der Fehlerfreiheit

In linearen Modellen

Die obige Demonstration der t- und Chi-Quadrat-Verteilungen für Probleme mit einer Stichprobe ist das einfachste Beispiel, wo Freiheitsgrade auftreten. Jedoch liegen ähnliche Geometrie- und Vektorzerlegungen einem Großteil der Theorie linearer Modelle zugrunde , einschließlich der linearen Regression und der Varianzanalyse . Ein explizites Beispiel basierend auf dem Vergleich von drei Mittelwerten wird hier vorgestellt; die Geometrie linearer Modelle wird von Christensen (2002) ausführlicher diskutiert.

Angenommen, für drei Populationen, , und , werden unabhängige Beobachtungen gemacht . Die Beschränkung auf drei Gruppen und gleiche Stichprobengrößen vereinfacht die Notation, aber die Ideen lassen sich leicht verallgemeinern.

Die Beobachtungen lassen sich zerlegen als

wobei die Mittelwerte der einzelnen Stichproben und der Mittelwert aller 3 n Beobachtungen sind. In Vektornotation kann diese Zerlegung geschrieben werden als

Der Beobachtungsvektor auf der linken Seite hat 3 n Freiheitsgrade. Auf der rechten Seite hat der erste Vektor einen Freiheitsgrad (oder eine Dimension) für den Gesamtmittelwert. Der zweite Vektor hängt von drei Zufallsvariablen ab, , und . Diese müssen sich jedoch auf 0 summieren und sind daher eingeschränkt; der Vektor muss also in einem 2-dimensionalen Unterraum liegen und hat 2 Freiheitsgrade. Die verbleibenden 3 n  – 3 Freiheitsgrade befinden sich im Restvektor (bestehend aus n  – 1 Freiheitsgraden innerhalb jeder der Populationen).

In der Varianzanalyse (ANOVA)

Bei statistischen Testproblemen ist man normalerweise nicht an den Komponentenvektoren selbst interessiert, sondern eher an ihren quadrierten Längen oder der Summe der Quadrate. Die einer Quadratsumme zugeordneten Freiheitsgrade sind die Freiheitsgrade der entsprechenden Komponentenvektoren.

Das obige Beispiel mit drei Populationen ist ein Beispiel für eine einseitige Varianzanalyse . Die Modell- oder Behandlungsquadratsumme ist die quadrierte Länge des zweiten Vektors,

mit 2 Freiheitsgraden. Die Residuen- oder Fehlerquadratsumme ist

mit 3( n −1) Freiheitsgraden. Natürlich geben einführende Bücher zur ANOVA normalerweise Formeln an, ohne die Vektoren zu zeigen, aber es ist diese zugrunde liegende Geometrie, die SS-Formeln hervorbringt und zeigt, wie man die Freiheitsgrade in jeder gegebenen Situation eindeutig bestimmt.

Unter der Nullhypothese ohne Unterschied zwischen den Populationsmittelwerten (und unter der Annahme, dass die regulären ANOVA-Standardannahmen erfüllt sind) haben die Quadratsummen skalierte Chi-Quadrat-Verteilungen mit den entsprechenden Freiheitsgraden. Die F-Test-Statistik ist das Verhältnis nach Skalierung durch die Freiheitsgrade. Wenn es keinen Unterschied zwischen den Populationsmittelwerten gibt, folgt dieses Verhältnis einer F -Verteilung mit 2 und 3 n  − 3 Freiheitsgraden.

In einigen komplizierten Einstellungen, wie z. B. unausgeglichenen Split-Plot- Designs, haben die Quadratsummen keine skalierten Chi-Quadrat-Verteilungen mehr. Der Vergleich von Quadratsummen mit Freiheitsgraden ist nicht mehr sinnvoll, und die Software kann in diesen Fällen bestimmte gebrochene "Freiheitsgrade" melden. Solche Zahlen haben keine echte Interpretation der Freiheitsgrade, sondern liefern lediglich eine ungefähre Chi-Quadrat-Verteilung für die entsprechende Summe der Quadrate. Die Einzelheiten solcher Näherungen würden den Rahmen dieser Seite sprengen.

In Wahrscheinlichkeitsverteilungen

Mehrere häufig vorkommende statistische Verteilungen ( Student's t , Chi-Quadrat , F ) haben Parameter, die allgemein als Freiheitsgrade bezeichnet werden . Diese Terminologie spiegelt einfach wider, dass in vielen Anwendungen, in denen diese Verteilungen auftreten, der Parameter den Freiheitsgraden eines zugrunde liegenden Zufallsvektors entspricht, wie im vorherigen ANOVA-Beispiel. Ein weiteres einfaches Beispiel ist: Wenn unabhängige normale Zufallsvariablen sind, ist die Statistik

folgt einer Chi-Quadrat-Verteilung mit n  − 1 Freiheitsgraden. Die Freiheitsgrade ergeben sich hier aus der Residualsumme der Quadrate im Zähler und wiederum den n  − 1 Freiheitsgraden des zugrunde liegenden Residuenvektors .

Bei der Anwendung dieser Verteilungen auf lineare Modelle können die Parameter der Freiheitsgrade nur ganzzahlige Werte annehmen . Die zugrunde liegenden Verteilungsfamilien erlauben Bruchwerte für die Parameter der Freiheitsgrade, die bei komplexeren Anwendungen auftreten können. Eine Reihe von Beispielen sind Probleme, bei denen Chi-Quadrat-Approximationen basierend auf effektiven Freiheitsgraden verwendet werden. Bei anderen Anwendungen, wie zum Beispiel der Modellierung von Daten mit schwerem Schwanz , kann die At- oder F- Verteilung als empirisches Modell verwendet werden. In diesen Fällen gibt es keine besonderen Freiheitsgrade der Interpretation der Verteilungsparameter, obwohl die Terminologie weiterhin verwendet werden kann.

In nicht standardmäßiger Regression

Viele nicht standardmäßige Regressionsmethoden, einschließlich regularisierter kleinster Quadrate (z. B. Ridge-Regression ), linearer Glättung , Glättungs-Splines und semiparametrischer Regression basieren nicht auf gewöhnlichen kleinsten Quadraten- Projektionen, sondern auf regulären ( verallgemeinerten und/oder bestraften) kleinsten Quadraten , so dass hinsichtlich der Dimensionalität definierte Freiheitsgrade für diese Verfahren im Allgemeinen nicht sinnvoll sind. Diese Verfahren sind jedoch in den Beobachtungen immer noch linear, und die angepassten Werte der Regression können in der Form

wobei der Vektor der angepassten Werte bei jedem der ursprünglichen Kovariatenwerte aus dem angepassten Modell ist, y der ursprüngliche Vektor der Antworten ist und H die Hutmatrix oder allgemeiner eine glattere Matrix ist.

Für statistische Inferenz können immer noch Quadratsummen gebildet werden: die Modellquadratsumme ist ; die Residualsumme der Quadrate ist . Da H jedoch keiner gewöhnlichen Anpassung der kleinsten Quadrate entspricht (dh keine orthogonale Projektion ist), haben diese Quadratsummen keine (skalierten, nicht zentralen) Chi-Quadrat-Verteilungen mehr und dimensional definierte Grade von -Freiheit sind nicht nützlich.

Die effektiven Freiheitsgrade der Anpassung können auf verschiedene Weise definiert werden, um Anpassungstests , Kreuzvalidierung und andere statistische Inferenzverfahren zu implementieren . Dabei kann zwischen regressionseffektiven Freiheitsgraden und verbleibenden effektiven Freiheitsgraden unterschieden werden .

Regressionseffektive Freiheitsgrade

Für die effektiven Freiheitsgrade der Regression können geeignete Definitionen die Spur der Hutmatrix , tr( H ), die Spur der quadratischen Form der Hutmatrix , tr( H'H ), die Form tr(2 HH H' ) oder die Satterthwaite-Näherung , tr( H'H ) 2 /tr( H'HH'H ) . Im Fall der linearen Regression, der Hut - Matrix H ist , X ( X  ‚ X ) -1 X‘ , und all diese Definitionen reduzieren die üblichen Freiheitsgrade. Beachte das

die Regressionsfreiheitsgrade (nicht Residuen) in linearen Modellen sind „die Summe der Sensitivitäten der angepassten Werte in Bezug auf die beobachteten Antwortwerte“, dh die Summe der Leverage-Scores .

Eine Möglichkeit, dies zu konzeptualisieren, besteht darin, eine einfache Glättungsmatrix wie eine Gaußsche Unschärfe zu betrachten , die verwendet wird, um das Datenrauschen zu verringern. Im Gegensatz zu einer einfachen linearen oder polynomischen Anpassung ist die Berechnung der effektiven Freiheitsgrade der Glättungsfunktion nicht einfach. In diesen Fällen ist es wichtig, die von der Matrix zugelassenen Freiheitsgrade zu schätzen , damit die verbleibenden Freiheitsgrade dann verwendet werden können, um statistische Tests wie z .

Verbleibende effektive Freiheitsgrade

Es gibt entsprechende Definitionen von verbleibenden effektiven Freiheitsgraden (redf), wobei H durch I  −  H ersetzt wird . Wenn zum Beispiel das Ziel darin besteht, die Fehlervarianz zu schätzen, wäre redf definiert als tr(( I  −  H )'( I  −  H )) und die unverzerrte Schätzung ist (mit ),

oder:

Die letzte obige Näherung reduziert den Rechenaufwand von O ( n 2 ) auf nur O ( n ). Im Allgemeinen wäre der Zähler die zu minimierende Zielfunktion; zB wenn die Hutmatrix eine Beobachtungskovarianzmatrix enthält, , dann wird .

Allgemeines

Beachten Sie, dass anders als im ursprünglichen Fall nicht ganzzahlige Freiheitsgrade erlaubt sind, obwohl der Wert normalerweise immer noch zwischen 0 und n beschränkt sein muss .

Betrachten wir als Beispiel die k - nächsten Nachbarn glattere, die der Durchschnitt der ist k nächsten Messwerte an dem gegebenen Punkt. Dann beträgt an jedem der n gemessenen Punkte das Gewicht des ursprünglichen Wertes auf der Linearkombination, die den vorhergesagten Wert bildet, nur 1/ k . Somit ist die Spur der Hutmatrix n/k . Somit kostet die glatte n/k effektive Freiheitsgrade.

Betrachten Sie als weiteres Beispiel die Existenz von fast duplizierten Beobachtungen. Die naive Anwendung der klassischen Formel np würde zu einer Überschätzung des Freiheitsgrades der Residuen führen, als ob jede Beobachtung unabhängig wäre. Realistischer jedoch würde die Hutmatrix H = X ( X  ' −1 X ) −1 X ' Σ −1 eine Beobachtungs-Kovarianz-Matrix Σ beinhalten, die die Nicht-Null-Korrelation zwischen Beobachtungen anzeigt.

Die allgemeinere Formulierung des effektiven Freiheitsgrads würde zu einer realistischeren Schätzung beispielsweise für die Fehlervarianz σ 2 führen , die wiederum die a posteriori- Standardabweichung der unbekannten Parameter skaliert ; der Freiheitsgrad beeinflusst auch den Expansionsfaktor, der erforderlich ist, um eine Fehlerellipse für ein gegebenes Konfidenzniveau zu erzeugen .

Andere Formulierungen

Ähnliche Konzepte sind die äquivalenten Freiheitsgrade in der nichtparametrischen Regression , der Signalfreiheitsgrad in atmosphärischen Studien und der nicht ganzzahlige Freiheitsgrad in der Geodäsie.

Die Residualsumme der Quadrate hat eine verallgemeinerte Chi-Quadrat-Verteilung , und die mit dieser Verteilung verbundene Theorie bietet einen alternativen Weg zu den oben gegebenen Antworten.

Siehe auch

Verweise

Weiterlesen

Externe Links