Homoskedastizität - Homoscedasticity

Plot mit Zufallsdaten, die Homoskedastizität zeigen: Bei jedem Wert von x hat der y- Wert der Punkte ungefähr die gleiche Varianz .

In Statistiken , eine Sequenz (oder ein Vektor) von Zufallsvariablen ist homoskedastisch / ˌ h oʊ m oʊ s k ə d æ s t ɪ k / , wenn alle seine Zufallsvariablen die gleiche endliche Varianz . Dies wird auch als Varianzhomogenität bezeichnet . Der komplementäre Begriff heißt Heteroskedastizität . Häufig werden auch die Schreibweisen homos k edasticity und heteros k edasticity verwendet.

Es ist eine Variable ist , unter der Annahme , wenn sie in Wirklichkeit homoskedastisch heteroscedastic ( / ˌ h ɛ t ər oʊ s k ə d æ s t ɪ k / ) ergeben unvoreingenommene aber ineffiziente Punktschätzungen und in vorgespannter Schätzung des Standardfehlers und kann dazu führen , Überschätzung der Anpassungsgüte , gemessen mit dem Pearson-Koeffizienten .

Annahmen eines Regressionsmodells

Eine Standardannahme in einer linearen Regression , ist , dass die Varianz des Störterms das gleiches über Beobachtungen, insbesondere hängt nicht von den Werten der erklärenden Variablen Dies ist eine der Voraussetzungen ist , unter denen das Gauss-Markov - Theorem gilt und Ordinary Least Squares (OLS) ergibt den besten linearen erwartungsfreien Schätzer ("BLAU"). Homoskedastizität ist nicht erforderlich, damit die Koeffizientenschätzungen unverzerrt, konsistent und asymptotisch normal sind, aber sie ist erforderlich, damit OLS effizient ist. Es ist auch erforderlich, dass die Standardfehler der Schätzungen unverzerrt und konsistent sind, so dass es für genaue Hypothesentests erforderlich ist, z. B. für einen t-Test, ob ein Koeffizient signifikant von Null verschieden ist. $y_{i}=X_{i}\beta +\epsilon_{i},i=1,\ldots,N,$ $\epsilon_{i}$ $X_{i}.$

Eine formalere Möglichkeit, die Annahme der Homoskedastizität zu formulieren, besteht darin, dass die Diagonalen der Varianz-Kovarianz-Matrix von alle die gleiche Zahl haben müssen: , wobei für alle i gleich ist . Beachten Sie, dass dies immer noch ermöglicht, dass die Nichtdiagonalen, die Kovarianzen , nicht Null sind, was eine separate Verletzung der als serielle Korrelation bekannten Gauss-Markov-Annahmen ist. $\epsilon$ $E\epsilon_{i}\epsilon_{i}=\sigma^{2}$ $\sigma ^{2}$ $E\epsilon_{i}\epsilon_{j}$

Beispiele

Die folgenden Matrizen sind Kovarianzen der Störung mit Einträgen , wenn nur drei Beobachtungen im Zeitverlauf vorliegen. Die Störung in Matrix A ist homoskedastisch; Dies ist der einfache Fall, in dem OLS der beste lineare erwartungsfreie Schätzer ist. Die Störungen in den Matrizen B und C sind heteroskedastisch. In Matrix B variiert die Varianz mit der Zeit und nimmt im Laufe der Zeit stetig zu; in Matrix C hängt die Varianz vom Wert von x ab. Die Störung in Matrix D ist homoskedastisch, weil die diagonalen Varianzen konstant sind, obwohl die Kovarianzen außerhalb der Diagonalen von Null verschieden sind und gewöhnliche kleinste Quadrate aus einem anderen Grund ineffizient sind: serielle Korrelation. $E\epsilon_{i}\epsilon_{j}$

A=\sigma ^{2}{\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\\\end{bmatrix}}\;\;\;\;\;\;\;B=\sigma ^{2}{\begin{bmatrix}1&0&0\\0&2&0\\0&0&3\\\end{bmatrix}}\;\;\;\;\;\;\;C=\sigma ^{2}{\begin {bmatrix}x_{1}&0&0\\0&x_{2}&0\\0&0&x_{3}\\\end{bmatrix}}\;\;\;\;\;\;\;D=\sigma ^{2 }{\begin{bmatrix}1&\rho &\rho^{2}\\\rho &1&\rho \\\rho^{2}&\rho &1\\\end{bmatrix}}

Wenn y der Konsum ist, x ist das Einkommen und die Launen des Verbrauchers, und wir schätzen, dass, wenn die Launen reicherer Verbraucher ihre Ausgaben stärker in absoluten Dollar beeinflussen, wir mit dem Einkommen steigen könnten , wie in Matrix C oben. $\epsilon$ $y_{i}=\beta x_{i}+\epsilon_{i},$ $Var(\epsilon_{i})=x_{i}\sigma^{2},$

Testen

Residuen können mit dem Breusch-Pagan-Test auf Homoskedastizität getestet werden , der eine Hilfsregression der quadrierten Residuen der unabhängigen Variablen durchführt. Aus dieser Hilfsregression wird die erklärte Quadratsumme beibehalten, durch zwei geteilt und wird dann zur Teststatistik für eine Chi-Quadrat-Verteilung mit den Freiheitsgraden gleich der Anzahl der unabhängigen Variablen. Die Nullhypothese dieses Chi-Quadrat-Tests ist Homoskedastizität, und die Alternativhypothese würde Heteroskedastizität anzeigen. Da der Breusch-Pagan-Test empfindlich auf Abweichungen von der Normalität oder kleine Stichprobengrößen reagiert, wird stattdessen häufig der Koenker-Bassett- oder „verallgemeinerte Breusch-Pagan“-Test verwendet. Aus der Hilfsregression behält sie den R-Quadrat-Wert bei, der dann mit der Stichprobengröße multipliziert wird und dann zur Teststatistik für eine Chi-Quadrat-Verteilung wird (und dieselben Freiheitsgrade verwendet). Obwohl dies für den Koenker-Bassett-Test nicht erforderlich ist, erfordert der Breusch-Pagan-Test, dass die quadrierten Residuen auch durch die Residuensumme der Quadrate geteilt durch die Stichprobengröße geteilt werden. Das Testen auf gruppenweise Heteroskedastizität erfordert den Goldfeld-Quandt-Test .

Homoskedastische Verteilungen

Zwei oder mehr Normalverteilungen , , sind homoskedastisch, wenn sie eine gemeinsame Kovarianz- (oder Korrelations- ) Matrix teilen , . Homoskedastische Verteilungen sind besonders nützlich, um statistische Mustererkennung und maschinelle Lernalgorithmen abzuleiten . Ein beliebtes Beispiel für einen Algorithmus, der Homoskedastizität annimmt, ist die lineare Diskriminanzanalyse von Fisher . $N(\mu_{i},\Sigma_{i})$ $\Sigma_{i}=\Sigma_{j},\ \forall i,j$

Das Konzept der Homoskedastizität kann auf Verteilungen auf Kugeln angewendet werden.

Siehe auch

Verweise

Languages

In other projects