Teilung von Quadratsummen - Partition of sums of squares

Die Aufteilung von Quadratsummen ist ein Konzept, das einen Großteil der inferenziellen und deskriptiven Statistik durchdringt . Genauer gesagt ist es die Aufteilung von Summen von quadrierten Abweichungen oder Fehlern . Mathematisch ist die Summe der quadrierten Abweichungen ein unskaliertes oder nicht angepasstes Maß für die Streuung (auch Variabilität genannt ). Wenn es für die Anzahl der Freiheitsgrade skaliert wird , schätzt es die Varianz oder Streuung der Beobachtungen um ihren Mittelwert. Die Aufteilung der Summe der quadrierten Abweichungen in verschiedene Komponenten ermöglicht es, die Gesamtvariabilität in einem Datensatz verschiedenen Typen oder Quellen der Variabilität zuzuschreiben, wobei die relative Bedeutung jeder einzelnen durch die Größe jeder Komponente der Gesamtsumme der Quadrate quantifiziert wird.

Hintergrund

Der Abstand von einem beliebigen Punkt in einer Datensammlung zum Mittelwert der Daten ist die Abweichung. Dies kann geschrieben werden als , wobei der i-te Datenpunkt ist und die Schätzung des Mittelwerts ist. Wenn alle diese Abweichungen quadriert werden, dann ergibt die Summe , wie in , die "Quadratsumme" für diese Daten. $y_{i}-{\overline {y}}$ $y_{i}$ ${\overline {y}}$ $\sum_{i=1}^{n}\left(y_{i}-{\overline {y}}\,\right)^{2}$

Wenn der Sammlung mehr Daten hinzugefügt werden, erhöht sich die Quadratsumme, außer in unwahrscheinlichen Fällen, z. B. wenn die neuen Daten dem Mittelwert entsprechen. Normalerweise wächst die Summe der Quadrate mit der Größe der Datensammlung. Das ist eine Manifestation der Tatsache, dass es nicht skaliert ist.

In vielen Fällen ist die Anzahl der Freiheitsgrade einfach die Anzahl der Daten in der Sammlung minus eins. Wir schreiben dies als n − 1, wobei n die Anzahl der Daten ist.

Skalieren (auch als Normalisieren bezeichnet) bedeutet, die Summe der Quadrate so anzupassen, dass sie nicht mit der Größe der Datensammlung anwächst. Dies ist wichtig, wenn wir Stichproben unterschiedlicher Größe vergleichen möchten, z. B. eine Stichprobe von 100 Personen mit einer Stichprobe von 20 Personen. Wenn die Summe der Quadrate nicht normalisiert wäre, wäre ihr Wert für die Stichprobe von 100 Personen immer größer als für die Stichprobe von 20 Personen. Um die Summe der Quadrate zu skalieren, dividieren wir sie durch die Freiheitsgrade, dh berechnen die Summe der Quadrate pro Freiheitsgrad oder Varianz. Die Standardabweichung wiederum ist die Quadratwurzel der Varianz.

Das Obige beschreibt, wie die Summe der Quadrate in der deskriptiven Statistik verwendet wird; eine Anwendung dieses breiten Prinzips auf die Inferenzstatistik finden Sie im Artikel über die Gesamtsumme der Quadrate .

Aufteilen der Quadratsumme in der linearen Regression

Satz. Bei einem linearen Regressionsmodell mit einer Konstante , basierend auf einer Stichprobe mit n Beobachtungen, kann die Gesamtsumme der Quadrate wie folgt in die erklärte Quadratsumme (ESS) und die Residualsumme der Quadrate (RSS) aufgeteilt werden: $y_{i}=\beta_{0}+\beta_{1}x_{i1}+\cdots +\beta_{p}x_{ip}+\varepsilon_{i}$ $\beta_{0}$ $(y_{i},x_{i1},\ldots,x_{ip}),\,i=1,\ldots,n$ $\mathrm{TSS} =\sum_{i=1}^{n}(y_{i}-{\bar{y}})^{2}$

\mathrm{TSS} =\mathrm{ESS} +\mathrm{RSS},

wobei diese Gleichung jeder der folgenden Formen entspricht:

{\begin{ausgerichtet}\left\|y-{\bar{y}}\mathbf {1} \right\|^{2}&=\left\|{\hat {y}}-{ \bar{y}}\mathbf{1} \right\|^{2}+\left\|{\hat{\varepsilon}}\right\|^{2},\quad\mathbf{1} =( 1,1,\ldots ,1)^{T},\\\sum_{i=1}^{n}(y_{i}-{\bar{y}})^{2}&=\sum _{i=1}^{n}({\hat{y}}_{i}-{\bar{y}})^{2}+\sum _{i=1}^{n}(y_ {i}-{\hat {y}}_{i})^{2},\\\sum _{i=1}^{n}(y_{i}-{\bar {y}})^ {2}&=\sum_{i=1}^{n}({\hat{y}}_{i}-{\bar{y}})^{2}+\sum _{i=1 }^{n}{\hat{\varepsilon}}_{i}^{2},\\\end{ausgerichtet}}

wobei der Wert durch die Regressionsgerade mit , , ..., als geschätzten Koeffizienten geschätzt wird .

{\hat {y}}_{i}

{\hat {b}}_{0}

{\hat {b}}_{1}

{\hat {b}}_{p}

Nachweisen

{\begin{ausgerichtet}\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}&=\sum _{i=1}^ {n}(y_{i}-{\overline {y}}+{\hat{y}}_{i}-{\hat{y}}_{i})^{2}=\sum _{ i=1}^{n}(({\hat{y}}_{i}-{\bar{y}})+\underbrace {(y_{i}-{\hat{y}}_{i })} _{{\hat {\varepsilon}}_{i}})^{2}\\&=\sum _{i=1}^{n}(({\hat {y}}_{ i}-{\bar{y}})^{2}+2{\hat{\varepsilon}}_{i}({\hat{y}}_{i}-{\bar{y}}) +{\hat{\varepsilon}}_{i}^{2})\\&=\sum _{i=1}^{n}({\hat{y}}_{i}-{\bar {y}})^{2}+\sum_{i=1}^{n}{\hat{\varepsilon}}_{i}^{2}+2\sum_{i=1}^{ n}{\hat{\varepsilon}}_{i}({\hat{y}}_{i}-{\bar{y}})\\&=\sum _{i=1}^{n }({\hat{y}}_{i}-{\bar{y}})^{2}+\sum_{i=1}^{n}{\hat{\varepsilon}}_{i }^{2}+2\sum_{i=1}^{n}{\hat{\varepsilon}}_{i}({\hat{\beta}}_{0}+{\hat{\ beta }}_{1}x_{i1}+\cdots +{\hat{\beta}}_{p}x_{ip}-{\overline {y}})\\&=\sum _{i= 1}^{n}({\hat{y}}_{i}-{\bar{y}})^{2}+\sum_{i=1}^{n}{\hat{\varepsilon }}_{i}^{2}+2({\hat{\beta}}_{0}-{\overline {y}})\underbrace {\sum _{i=1}^{n}{ \hat {\varepsilon}}_{i}} _{0}+2{\hat {\b eta }}_{1}\underbrace {\sum_{i=1}^{n}{\hat {\varepsilon}}_{i}x_{i1}} _{0}+\cdots +2{\ Hut {\beta}}_{p}\underbrace {\sum_{i=1}^{n}{\hat {\varepsilon}}_{i}x_{ip}} _{0}\\&= \sum_{i=1}^{n}({\hat{y}}_{i}-{\bar{y}})^{2}+\sum_{i=1}^{n} {\hat{\varepsilon}}_{i}^{2}=\textrm{ESS} +\textrm{RSS} \\\end{ausgerichtet}}

Die Anforderung , dass das Modell eine Konstante enthält oder äquivalent die Designmatrix eine Spalte von Einsen enthält , stellt sicher , dass , dh . $\sum_{i=1}^{n}{\hat {\varepsilon}}_{i}=0$ ${\hat{\varepsilon}}^{T}\mathbf {1} =0$

Der Beweis kann auch in Vektorform wie folgt ausgedrückt werden:

{\begin{aligned}SS_{\text{total}}=\Vert \mathbf {y} -{\bar {y}}\mathbf {1} \Vert ^{2}&=\Vert \mathbf {y} -{\bar{y}}\mathbf {1} +\mathbf {\hat{y}} -\mathbf {\hat{y}} \Vert ^{2},\\&=\Vert\ left(\mathbf {\hat{y}} -{\bar{y}}\mathbf {1} \right)+\left(\mathbf{y} -\mathbf {\hat{y}} \right)\ Vert ^{2},\\&=\Vert {\mathbf {\hat{y}} -{\bar{y}}\mathbf {1}}\Vert ^{2}+\Vert {\hat {\ varepsilon }}\Vert ^{2}+2{\hat{\varepsilon}}^{T}\left(\mathbf {\hat{y}} -{\bar{y}}\mathbf {1} \right ),\\&=SS_{\text{Regression}}+SS_{\text{Fehler}}+2{\hat {\varepsilon}}^{T}\left(X{\hat {\beta}}- {\bar{y}}\mathbf {1} \right),\\&=SS_{\text{Regression}}+SS_{\text{Fehler}}+2\left({\hat {\varepsilon}} ^{T}X\right){\hat{\beta}}-2{\bar{y}}\underbrace {{\hat{\varepsilon}}^{T}\mathbf {1} } _{0} ,\\&=SS_{\text{Regression}}+SS_{\text{Fehler}}.\end{aligned}}

Die Eliminierung von Termen in der letzten Zeile nutzte die Tatsache, dass

{\hat {\varepsilon}}^{T}X=\left(\mathbf {y} -\mathbf {\hat{y}} \right)^{T}X=\mathbf {y} ^ {T}(IX(X^{T}X)^{-1}X^{T})X={\mathbf {y}}^{T}(XX)={\mathbf {0}}.

Weitere Aufteilung

Beachten Sie, dass die Residualsumme der Quadrate weiter unterteilt werden kann als die Summe der Quadrate der fehlenden Anpassung plus die Summe der Quadrate aufgrund eines reinen Fehlers.

Siehe auch

Produktinnenraum
- Hilbert-Raum
  - Euklidischer Raum
Erwartete mittlere Quadrate
- Orthogonalität
- Orthonormale Basis
  - Orthogonales Komplement , der geschlossene Unterraum orthogonal zu einer Menge (insbesondere einem Unterraum)
  - Orthomodulares Gitter der Unterräume eines inneren Produktraums
  - Orthogonale Projektion
- Satz des Pythagoras, dass die Summe der quadrierten Normen orthogonaler Summanden gleich der quadrierten Norm der Summe ist.
Kleinsten Quadrate
Mittlere quadratische Fehler
Quadratische Abweichungen

Verweise

Bailey, RA (2008). Design von Vergleichsexperimenten . Cambridge University Press. ISBN 978-0-521-68357-9. Die Kapitel vor der Veröffentlichung sind online verfügbar.
Christensen, Ronald (2002). Ebene Antworten auf komplexe Fragen: Die Theorie der linearen Modelle (dritte Aufl.). New York: Springer. ISBN 0-387-95361-2.
Whittle, Peter (1963). Vorhersage und Regulierung . Englische Universitätspresse. ISBN 0-8166-1147-5.
Wiederveröffentlicht als: Whittle, P. (1983). Vorhersage und Regulierung durch lineare Methoden der kleinsten Quadrate . University of Minnesota Press. ISBN 0-8166-1148-3.
Whittle, P. (20. April 2000). Wahrscheinlichkeit über Erwartung (4. Aufl.). Springer. ISBN 0-387-98955-2.

Languages

In other projects