Probit - Probit

Plot der Probitfunktion

In der Wahrscheinlichkeitstheorie und Statistik ist die Probitfunktion die Quantilfunktion, die der Standardnormalverteilung zugeordnet ist . Es hat Anwendungen in der Datenanalyse und im maschinellen Lernen, insbesondere explorative statistische Grafiken und spezialisierte Regressionsmodellierung von binären Antwortvariablen .

Mathematisch ist der Probit die Umkehrung der kumulativen Verteilungsfunktion der Standardnormalverteilung, die als bezeichnet wird , also ist der Probit definiert als $\Phi (z)$

\operatorname {probit} (p)=\Phi^{-1}(p)\quad {\text{for}}\quad p\in (0,1)

.

Vor allem wegen des zentralen Grenzwertsatzes spielt die Standardnormalverteilung eine grundlegende Rolle in der Wahrscheinlichkeitstheorie und Statistik. Wenn wir die bekannte Tatsache berücksichtigen, dass die Standardnormalverteilung 95% der Wahrscheinlichkeit zwischen −1,96 und 1,96 platziert und um Null symmetrisch ist, folgt:

\Phi (-1.96)=0.025=1-\Phi (1.96)\,\!

Die Probit-Funktion liefert die 'inverse' Berechnung und erzeugt einen Wert einer standardmäßigen normalen Zufallsvariablen, der einer bestimmten kumulativen Wahrscheinlichkeit zugeordnet ist. Fortsetzung des Beispiels,

\operatorname {probit} (0.025)=-1.96=-\operatorname {probit} (0.975)

.

Allgemein,

\Phi (\operatorname {probit} (p))=p

und

\operatorname {probit} (\Phi (z))=z.

Konzeptionelle Entwicklung

Die Idee der Probit-Funktion wurde von Chester Ittner Bliss in einem Artikel von 1934 in Science über den Umgang mit Daten wie dem Prozentsatz eines durch ein Pestizid getöteten Schädlings veröffentlicht . Bliss vorgeschlagen , um den Prozentsatz zu einer Umwandlung getötet „ prob Fähigkeit un es “ (oder „Probit“) , die linear auf die moderne Definition verwendet war (er es als gleich willkürlich definiert auf 0 für 0,0001 und 1 für 0,9999). Er fügte eine Tabelle hinzu, um anderen Forschern zu helfen, ihre Abtötungsprozentsätze in seinen Probit umzurechnen, den sie dann gegen den Logarithmus der Dosis darstellen konnten und dadurch, so hoffte man, eine mehr oder weniger gerade Linie erhalten konnten. Ein solches sogenanntes Probit-Modell ist in der Toxikologie, aber auch auf anderen Gebieten, immer noch wichtig. Der Ansatz ist insbesondere dann gerechtfertigt, wenn die Antwortvariation als lognormale Verteilung der Toleranzen zwischen den Testpersonen rationalisiert werden kann , wobei die Toleranz einer bestimmten Person die Dosis ist, die gerade für die interessierende Reaktion ausreicht.

Die von Bliss eingeführte Methode wurde in Probit Analysis , einem wichtigen Text über toxikologische Anwendungen von DJ Finney, weitergeführt . Von Finney tabellarische Werte können aus Probits wie hier definiert abgeleitet werden, indem ein Wert von 5 addiert wird. Diese Unterscheidung wird von Collett (S. 55) zusammengefasst: mit negativen Probits; ... Diese Definition wird in einigen Bereichen noch verwendet, aber in den wichtigsten statistischen Softwarepaketen für die sogenannte Probit-Analyse werden Probits ohne den Zusatz von 5 definiert." Es sollte beachtet werden, dass die Probit-Methodik, einschließlich der numerischen Optimierung für die Anpassung von Probit-Funktionen, eingeführt wurde, bevor elektronisches Rechnen weit verbreitet war. Bei der Verwendung von Tabellen war es praktisch, gleichmäßig positive Probits zu haben. Allgemeine Anwendungsgebiete erfordern keine positiven Probits.

Abweichung einer Verteilung von der Normalität diagnostizieren

Die Probit-Funktion liefert nicht nur eine Grundlage für wichtige Regressionsarten, sondern ist auch in der statistischen Analyse zur Diagnose von Abweichungen von der Normalität nach der Methode des Q-Q-Plots nützlich. Wenn es sich bei einem Datensatz tatsächlich um eine Stichprobe einer Normalverteilung handelt , ist eine Auftragung der Werte gegen ihre Probit-Scores ungefähr linear. Spezifische Abweichungen von der Normalität wie Asymmetrie , Heavy Tails oder Bimodalität können basierend auf der Erkennung spezifischer Abweichungen von der Linearität diagnostiziert werden. Während der Q-Q-Plot zum Vergleich mit jeder Verteilungsfamilie (nicht nur der Normalen) verwendet werden kann, ist der Q-Q-Normalplot ein relativ standardmäßiges exploratives Datenanalyseverfahren, da die Annahme der Normalität oft ein Ausgangspunkt für die Analyse ist.

Berechnung

Die Normalverteilung CDF und ihre Inverse sind nicht in geschlossener Form verfügbar , und die Berechnung erfordert eine sorgfältige Verwendung numerischer Verfahren. Die Funktionen sind jedoch in Software für Statistik und Wahrscheinlichkeitsmodellierung sowie in Tabellenkalkulationen weit verbreitet. In Microsoft Excel beispielsweise steht die Probit-Funktion als norm.s.inv(p) zur Verfügung. In Rechenumgebungen, in denen numerische Implementierungen der inversen Fehlerfunktion verfügbar sind, kann die Probit-Funktion erhalten werden als

\operatorname {probit} (p)={\sqrt {2}}\,\operatorname {erf} ^{-1}(2p-1).

Ein Beispiel ist MATLAB , wo eine 'erfinv'-Funktion verfügbar ist. Die Sprache Mathematica implementiert 'InverseErf'. Andere Umgebungen implementieren die Probit-Funktion direkt, wie in der folgenden Sitzung in der Programmiersprache R gezeigt wird .

> qnorm(0.025)
[1] -1.959964
> pnorm(-1.96)
[1] 0.02499790

Details zur Berechnung der inversen Fehlerfunktion finden sich bei [1] . Wichura bietet einen schnellen Algorithmus zum Berechnen der Probit-Funktion auf 16 Dezimalstellen; dies wird in R verwendet, um Zufallsvariablen für die Normalverteilung zu erzeugen.

Eine gewöhnliche Differentialgleichung für die Probit-Funktion

Eine andere Berechnungsmethode basiert auf der Bildung einer nichtlinearen gewöhnlichen Differentialgleichung (ODE) für Probit nach der Methode von Steinbrecher und Shaw. Abgekürzt die Probitfunktion als , ist die ODE $w(p)$

{\frac {dw}{dp}}={\frac {1}{f(w)}}

wo ist die Wahrscheinlichkeitsdichtefunktion von $w$ . $f(w)$

Im Fall des Gaußschen:

{\frac {dw}{dp}}={\sqrt {2\pi}}\e^{\frac {w^{2}}{2}}

Nochmals differenzieren:

{\frac {d^{2}w}{dp^{2}}}=w\left({\frac {dw}{dp}}\right)^{2}

mit den mittleren (Ausgangs-)Bedingungen

w\left(1/2\right)=0,

w'\left(1/2\right)={\sqrt {2\pi}}.

Diese Gleichung kann durch verschiedene Methoden gelöst werden, einschließlich des klassischen Potenzreihenansatzes. Daraus lassen sich auf der Grundlage des Steinbrecherschen Ansatzes der Reihen für die inverse Fehlerfunktion Lösungen beliebig hoher Genauigkeit entwickeln. Die Potenzreihenlösung ist gegeben durch

w(p)={\sqrt {\frac {\pi}{2}}}\sum _{k=0}^{\infty }{\frac {d_{k}}{(2k+1 )}}(2p-1)^{(2k+1)}

wobei die Koeffizienten die nichtlineare Rekursion erfüllen $d_{k}$

d_{k+1}={\frac {\pi}{4}}\sum _{j=0}^{k}{\frac {d_{j}d_{kj}}{(j+ 1)(2j+1)}}

mit . In dieser Form ist das Verhältnis als . $d_{0}=1$ $d_{k+1}/d_{k}\rightarrow 1$ $k\rightarrow\infty$

Logit

Vergleich der logit - Funktion mit einer skalierten Probit (dh der inversen CDF der Normalverteilung ), Vergleichen vs. , die die Steigungen der gleiche am Ursprung macht.

\operatorname {logit} (x)

\Phi^{-1}(x)/{\sqrt {\frac {\pi}{8}}}

Eng verwandt mit der Probit-Funktion (und dem Probit-Modell ) sind die Logit- Funktion und das Logit-Modell . Die Umkehrung der logistischen Funktion ist gegeben durch

\operatorname {logit} (p)=\log \left({\frac {p}{1-p}}\right).

Analog zum Probit-Modell können wir annehmen, dass eine solche Größe linear mit einer Menge von Prädiktoren zusammenhängt, woraus sich das Logit-Modell ergibt , die Grundlage insbesondere des logistischen Regressionsmodells , der am weitesten verbreiteten Form der Regressionsanalyse für kategoriale Antwortdaten. In der gegenwärtigen statistischen Praxis werden Probit- und Logit-Regressionsmodelle oft als Fälle des generalisierten linearen Modells behandelt .

Siehe auch

Erkennungsfehler-Tradeoff- Graphen (DET-Graphen, eine Alternative zum ROC)
Logistische Regression (auch bekannt als Logit-Modell)
Logit
Probit-Modell
Multinomiales Probit
Q-Q-Diagramm
Dauerfunktion
Monotone Funktion
Quantil-Funktion
Sigmoid-Funktion
Rankit- Analyse, ebenfalls entwickelt von Chester Bliss
Ridit-Wertung

Verweise

Languages

In other projects