Unpassende Summe der Quadrate - Lack-of-fit sum of squares

In Statistik , eine Summe der Quadrate aufgrund fehlenden Passform , oder kurz und bündig eine Mangel-of-fit Summe von Quadraten , ist eine der Komponenten einer Unterteilung der Summe der Quadrate der Residuen in einer Varianzanalyse , in dem verwendeten Zähler in einem F-Test der Nullhypothese , der besagt, dass ein vorgeschlagenes Modell gut passt. Die andere Komponente ist die reine Fehlersumme der Quadrate .

Die reine Fehlersumme der Quadrate ist die Summe der quadratischen Abweichungen jedes Werts der abhängigen Variablen vom Durchschnittswert über alle Beobachtungen, die ihre unabhängigen Variablenwerte teilen . Dies sind Fehler, die niemals durch eine Vorhersagegleichung vermieden werden könnten, die einen vorhergesagten Wert für die abhängige Variable als Funktion der Werte der unabhängigen Variablen zuweist. Der Rest der verbleibenden Quadratsumme wird auf die mangelnde Anpassung des Modells zurückgeführt, da es mathematisch möglich wäre, diese Fehler vollständig zu beseitigen.

Skizze der Idee

Damit sich die Summe der nicht passenden Quadrate von der Summe der Quadrate der Residuen unterscheidet , muss für mindestens einen der Werte des Satzes von Prädiktorvariablen mehr als ein Wert der Antwortvariablen vorhanden sein . Ziehen Sie beispielsweise in Betracht, eine Linie anzupassen

nach der Methode der kleinsten Quadrate . Man nimmt als Schätzungen von α und β die Werte, die die Summe der Quadrate der Residuen minimieren, dh die Summe der Quadrate der Differenzen zwischen dem beobachteten y- Wert und dem angepassten y- Wert. Um eine nicht passende Summe von Quadraten zu haben, die sich von der verbleibenden Summe von Quadraten unterscheidet, muss man mehr als einen y- Wert für jeden von einem oder mehreren der x- Werte beobachten. Man unterteilt dann die "Summe der Quadrate aufgrund eines Fehlers", dh die Summe der Quadrate der Residuen, in zwei Komponenten:

Summe der Quadrate aufgrund eines Fehlers = (Summe der Quadrate aufgrund eines "reinen" Fehlers) + (Summe der Quadrate aufgrund mangelnder Anpassung).

Die Summe der Quadrate aufgrund eines "reinen" Fehlers ist die Summe der Quadrate der Differenzen zwischen jedem beobachteten y- Wert und dem Durchschnitt aller y- Werte, die demselben x- Wert entsprechen.

Die Summe der Quadrate aufgrund mangelnder Anpassung ist die gewichtete Summe der Quadrate der Differenzen zwischen jedem Durchschnitt der y- Werte, die demselben x- Wert entsprechen, und dem entsprechenden angepassten y- Wert, wobei das Gewicht jeweils einfach die Anzahl der beobachteten ist y- Werte für diesen x- Wert. Da es eine Eigenschaft der Regression der kleinsten Quadrate ist, dass der Vektor, dessen Komponenten "reine Fehler" sind, und der Vektor der fehlangepassten Komponenten orthogonal zueinander sind, gilt die folgende Gleichheit:

Daher wurde die verbleibende Quadratsumme vollständig in zwei Komponenten zerlegt.

Mathematische Details

Ziehen Sie in Betracht, eine Linie mit einer Prädiktorvariablen anzupassen. Definieren Sie i als Index für jeden der n verschiedenen x- Werte, j als Index für die Beobachtungen der Antwortvariablen für einen bestimmten x- Wert und n i als Anzahl der y- Werte, die dem i- ten x- Wert zugeordnet sind. Der Wert jeder Beobachtung der Antwortvariablen kann durch dargestellt werden

Lassen

seien die Schätzungen der kleinsten Quadrate der nicht beobachtbaren Parameter α und β basierend auf den beobachteten Werten von x i und Y i j .   

Lassen

seien die angepassten Werte der Antwortvariablen. Dann

sind die Residuen , die beobachtbare Schätzungen der nicht beobachtbaren Werte des Fehlerterms  ε ij sind . Aufgrund der Art der Methode der kleinsten Quadrate wird der gesamte Vektor der Residuen mit  

Skalarkomponenten erfüllen notwendigerweise die beiden Bedingungen

Es ist daher beschränkt, in einem ( N  - 2) -dimensionalen Unterraum von R N zu liegen , dh es gibt N  - 2 " Freiheitsgrade für Fehler".  

Nun lass

sei der Durchschnitt aller Y- Werte, die dem i- ten x- Wert zugeordnet sind.

Wir teilen die Summe der fehlerhaften Quadrate in zwei Komponenten auf:

Wahrscheinlichkeitsverteilungen

Quadratsummen

Angenommen, die Fehlerterme ε i j sind unabhängig und normalverteilt mit dem erwarteten Wert  0 und der Varianz σ 2 . Wir behandeln x i eher als konstant als als zufällig. Dann sind die Antwortvariablen Y i j nur zufällig, weil die Fehler ε i j zufällig sind.      

Es kann gezeigt werden, dass, wenn das geradlinige Modell korrekt ist, die Summe der Quadrate aufgrund des Fehlers geteilt durch die Fehlervarianz,

hat eine Chi-Quadrat-Verteilung mit N  - 2 Freiheitsgraden.

Angesichts der Gesamtzahl der Beobachtungen N , der Anzahl der Ebenen der unabhängigen Variablen n und der Anzahl der Parameter im Modell p :

  • Die Summe der Quadrate aufgrund des reinen Fehlers, geteilt durch die Fehlervarianz σ 2 , hat eine Chi-Quadrat-Verteilung mit N  -  n Freiheitsgraden;
  • Die Summe der Quadrate aufgrund mangelnder Anpassung, geteilt durch die Fehlervarianz σ 2 , hat eine Chi-Quadrat-Verteilung mit n  -  p Freiheitsgraden (hier p  = 2, da es im geradlinigen Modell zwei Parameter gibt);
  • Die beiden Quadratsummen sind wahrscheinlich unabhängig.

Die Teststatistik

Daraus folgt die Statistik

hat eine F-Verteilung mit der entsprechenden Anzahl von Freiheitsgraden im Zähler und im Nenner, sofern das Modell korrekt ist. Wenn das Modell falsch ist, ist die Wahrscheinlichkeitsverteilung des Nenners immer noch wie oben angegeben, und der Zähler und der Nenner sind immer noch unabhängig. Der Zähler hat dann aber eine nicht zentrale Chi-Quadrat-Verteilung , und folglich hat der Quotient als Ganzes eine nicht zentrale F-Verteilung .

Man verwendet diese F-Statistik, um die Nullhypothese zu testen , dass das lineare Modell korrekt ist. Da die nicht-zentrale F-Verteilung stochastisch größer als die (zentrale) F-Verteilung ist, lehnt man die Nullhypothese ab, wenn die F-Statistik größer als der kritische F-Wert ist. Der kritische Wert entspricht der kumulativen Verteilungsfunktion der F-Verteilung mit x gleich dem gewünschten Konfidenzniveau und Freiheitsgraden d 1  = ( n  -  p ) und d 2  = ( N  -  n ).

Es kann gezeigt werden, dass die Annahmen der Normalverteilung von Fehlern und der Unabhängigkeit dazu führen, dass dieser Fehlanpassungstest der Likelihood-Ratio-Test dieser Nullhypothese ist.

Siehe auch

Anmerkungen