Bayessches Informationskriterium - Bayesian information criterion

In der Statistik ist das Bayessche Informationskriterium ( BIC ) oder das Schwarz-Informationskriterium (auch SIC , SBC , SBIC ) ein Kriterium für die Modellauswahl unter einer endlichen Menge von Modellen; Modelle mit niedrigerem BIC werden im Allgemeinen bevorzugt. Es basiert zum Teil auf der Likelihood-Funktion und ist eng mit dem Akaike-Informationskriterium (AIC) verwandt.

Beim Anpassen von Modellen ist es möglich, die Wahrscheinlichkeit durch Hinzufügen von Parametern zu erhöhen, dies kann jedoch zu einer Überanpassung führen . Sowohl BIC als auch AIC versuchen, dieses Problem zu lösen, indem sie einen Strafterm für die Anzahl der Parameter im Modell einführen; der Strafterm ist im BIC größer als im AIC.

Der BIC wurde von Gideon E. Schwarz entwickelt und 1978 in einer Veröffentlichung veröffentlicht, in der er ein Bayes'sches Argument für seine Übernahme anführte.

Definition

Der BIC ist formal definiert als

\mathrm {BIC} =k\ln(n)-2\ln({\widehat{L}}).\

wo

${\hat {L}}$ = der maximierte Wert der Likelihood-Funktion des Modells , dh wo sind die Parameterwerte, die die Likelihood-Funktion maximieren; $M$ ${\hat{L}}=p(x\mid {\widehat{\theta}},M)$ ${\widehat{\theta}}$
$x$ = die beobachteten Daten;
$n$ = die Anzahl der Datenpunkte in , die Anzahl der Beobachtungen oder entsprechend der Stichprobenumfang; $x$
$k$ = Anzahl der vom Modell geschätzten Parameter . Bei der multiplen linearen Regression sind die geschätzten Parameter beispielsweise der Achsenabschnitt, die Steigungsparameter und die konstante Varianz der Fehler; also, . $q$ $k=q+2$

Konishi und Kitagawa leiten den BIC ab, um die Verteilung der Daten anzunähern, indem sie die Parameter mit der Laplace-Methode integrieren , beginnend mit den folgenden Modellbeweisen :

p(x\mid M)=\int p(x\mid\theta ,M)\pi (\theta\mid M)\,d\theta

wo ist der Vorrang für das untere Modell . $\pi (\theta\mid M)$ ${\displaystyle\theta}$ $M$

Die Log-Likelihood, , wird dann zu einer Taylor-Reihe zweiter Ordnung um den MLE , , erweitert, unter der Annahme, dass sie wie folgt zweimal differenzierbar ist: $\ln(p(x|\theta,M))$ ${\widehat{\theta}}$

\ln(p(x\mid\theta,M))=\ln({\widehat{L}})-0.5(\theta -{\widehat{\theta}})'n{\mathcal{ I}}(\theta)(\theta -{\widehat{\theta}})+R(x,\theta),

wobei die durchschnittliche beobachtete Information pro Beobachtung ist und prime ( ) die Transponierte des Vektors bezeichnet . Soweit dies vernachlässigbar ist und in der Nähe von relativ linear ist , können wir heraus integrieren, um Folgendes zu erhalten: ${\mathcal{I}}(\theta)$ $'$ $(\theta -{\widehat{\theta}})$ $R(x,\theta)$ $\pi (\theta\mid M)$ ${\widehat{\theta}}$ ${\displaystyle\theta}$

p(x\mid M)\approx {\hat{L}}(2\pi/n)^{k/2}|{\mathcal{I}}({\widehat{\theta}}) |^{-1/2}\pi ({\widehat{\theta}})

Als Zunahmen können wir ignorieren und wie sie sind . Daher, $n$ $|{\mathcal{I}}({\widehat{\theta}})|$ $\pi ({\widehat{\theta}})$ $O(1)$

p(x\mid M)=\exp\{\ln {\widehat{L}}-(k/2)\ln(n)+O(1)\}=\exp(-\mathrm { BIC} /2+O(1)),

wobei BIC wie oben definiert ist und entweder (a) der Bayes'sche Posterior-Modus ist oder (b) den MLE verwendet und der Prior eine Steigung ungleich Null am MLE hat. Dann das hintere ${\widehat {L}}$ $\pi (\theta\mid M)$

p(M\mid x)\propto p(x\mid M)p(M)\approx \exp(-\mathrm {BIC} /2)p(M)

Verwendungszweck

Bei der Auswahl aus mehreren Modellen werden im Allgemeinen Modelle mit niedrigeren BIC-Werten bevorzugt. Der BIC ist eine ansteigende Funktion der Fehlervarianz und eine ansteigende Funktion von k . Das heißt, unerklärliche Variationen der abhängigen Variablen und die Anzahl der erklärenden Variablen erhöhen den Wert des BIC. Ein niedriger BIC bedeutet jedoch nicht unbedingt, dass ein Modell besser ist als ein anderes. Da es sich um Näherungen handelt, ist der BIC lediglich eine Heuristik. Insbesondere sollten Unterschiede im BIC niemals wie transformierte Bayes-Faktoren behandelt werden. $\sigma_{e}^{2}$

Es ist wichtig zu bedenken, dass der BIC nur dann zum Vergleich geschätzter Modelle verwendet werden kann, wenn die numerischen Werte der abhängigen Variablen für alle verglichenen Modelle identisch sind. Die verglichenen Modelle müssen nicht verschachtelt werden , anders als wenn Modelle mit einem F-Test oder einem Likelihood-Quotienten-Test verglichen werden .

Eigenschaften

Der BIC bestraft freie Parameter im Allgemeinen stärker als das Akaike-Informationskriterium , hängt jedoch von der Größe von n und der relativen Größe von n und k ab .
Es ist unabhängig vom Vorhergehenden.
Es kann die Effizienz des parametrisierten Modells hinsichtlich der Vorhersage der Daten messen.
Es bestraft die Komplexität des Modells, wobei sich Komplexität auf die Anzahl der Parameter im Modell bezieht.
Sie entspricht ungefähr dem Kriterium der minimalen Beschreibungslänge, jedoch mit negativem Vorzeichen.
Es kann verwendet werden, um die Anzahl der Cluster entsprechend der intrinsischen Komplexität eines bestimmten Datensatzes auszuwählen.
Es steht in engem Zusammenhang mit anderen bestraften Wahrscheinlichkeitskriterien wie dem Abweichungs-Informationskriterium und dem Akaike-Informationskriterium .

Einschränkungen

Der BIC leidet unter zwei Haupteinschränkungen

die obige Näherung gilt nur für Stichprobengrößen, die viel größer sind als die Anzahl der Parameter im Modell. $n$ $k$
der BIC kann komplexe Sammlungen von Modellen wie bei dem Problem der Variablenauswahl (oder Merkmalsauswahl ) in hoher Dimension nicht handhaben .

Gaußscher Spezialfall

Unter der Annahme, dass die Modellfehler oder -störungen unabhängig und gleichverteilt gemäß einer Normalverteilung sind und die Randbedingung, dass die Ableitung der Log-Likelihood nach der wahren Varianz null ist, wird dies zu ( bis auf eine additive Konstante , die hängt nur von n und nicht vom Modell ab):

\mathrm {BIC} =n\ln({\widehat{\sigma_{e}^{2}}})+k\ln(n)\

wo ist die fehlervarianz. Die Fehlervarianz ist in diesem Fall definiert als ${\widehat {\sigma_{e}^{2}}}$

{\widehat {\sigma_{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\ breiter Hut {x_{i}}})^{2}.

Dies ist ein verzerrter Schätzer für die wahre Varianz .

Bezogen auf die Residualsumme der Quadrate (RSS) ist der BIC

\mathrm {BIC} =n\ln(RSS/n)+k\ln(n)\

Beim Testen mehrerer linearer Modelle gegen ein gesättigtes Modell kann der BIC in Bezug auf die Abweichung wie folgt umgeschrieben werden : $\chi^{2}$

\mathrm {BIC} =\chi^{2}+k\ln(n)

wobei die Anzahl der Modellparameter im Test ist. $k$

Siehe auch

Anmerkungen

Verweise

Weiterlesen

Bhat, HS; Kumar, N. (2010). "Über die Ableitung des Bayesian Information Criterion" (PDF) . Archiviert vom Original (PDF) am 28. März 2012. Cite Journal erfordert |journal=( Hilfe )
Findley, DF (1991). „Gegenbeispiele zu Sparsamkeit und BIC“. Annalen des Instituts für Statistische Mathematik . 43 (3): 505–514. doi : 10.1007/BF00053369 .
Kass, RE; Wassermann, L. (1995). „Ein Referenz-Bayesian-Test für verschachtelte Hypothesen und seine Beziehung zum Schwarz-Kriterium“. Zeitschrift der American Statistical Association . 90 (431): 928–934. doi : 10.2307/2291327 . JSTOR 2291327 .
Liddle, AR (2007). „Informationskriterien für die astrophysikalische Modellauswahl“. Monatliche Mitteilungen der Royal Astronomical Society . 377 (1): L74–L78. arXiv : astro-ph/0701113 . Bibcode : 2007MNRAS.377L..74L . doi : 10.1111/j.1745-3933.2007.00306.x .
McQuarrie, ADR; Tsai, C.-L. (1998). Auswahl von Regressions- und Zeitreihenmodellen . Weltwissenschaftlich .

Externe Links

Languages

In other projects