Platt-Skalierung - Platt scaling

Beim maschinellen Lernen ist die Platt-Skalierung oder Platt-Kalibrierung eine Möglichkeit, die Ausgaben eines Klassifizierungsmodells in eine Wahrscheinlichkeitsverteilung über Klassen umzuwandeln . Die Methode wurde von John Platt im Kontext von Support Vector Machines erfunden und ersetzt eine frühere Methode von Vapnik , kann aber auf andere Klassifikationsmodelle angewendet werden. Die Platt-Skalierung funktioniert durch Anpassung eines logistischen Regressionsmodells an die Scores eines Klassifikators.

Beschreibung

Betrachten Sie das Problem der binären Klassifikation : Für Eingaben $x$ wollen wir feststellen, ob sie zu einer von zwei Klassen gehören, die willkürlich mit $+1$ und $-1 bezeichnet werden$ . Wir nehmen an, dass das Klassifikationsproblem durch eine reellwertige Funktion $f$ gelöst wird , indem ein Klassenlabel $y = sign(f (x)) vorhergesagt wird$ . Für viele Probleme ist es praktisch, eine Wahrscheinlichkeit zu erhalten , dh eine Klassifizierung, die nicht nur eine Antwort, sondern auch ein gewisses Maß an Sicherheit über die Antwort liefert. Einige Klassifikationsmodelle liefern eine solche Wahrscheinlichkeit nicht oder geben schlechte Wahrscheinlichkeitsschätzungen ab. $P(y=1|x)$

Die Platt-Skalierung ist ein Algorithmus zur Lösung des oben genannten Problems. Es erzeugt Wahrscheinlichkeitsschätzungen

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

,

dh eine logistische Transformation der Klassifiziererbewertungen $f (x)$ , wobei $A$ und $B$ zwei skalare Parameter sind, die durch den Algorithmus gelernt werden. Beachten Sie, dass Vorhersagen jetzt danach gemacht werden können, ob die Wahrscheinlichkeitsschätzungen eine Korrektur im Vergleich zur alten Entscheidungsfunktion $y$ $= sign($ $f$ $($ $x$ $)) enthalten$ . $y=1{\text{ wenn }}P(y=1|x)>{\frac {1}{2}};$ $B\neq 0,$

Die Parameter $A$ und $B$ werden unter Verwendung eines Maximum-Likelihood- Verfahrens geschätzt , das auf dem gleichen Trainingssatz wie dem für den ursprünglichen Klassifikator $f$ optimiert . Um eine Überanpassung an diesen Satz zu vermeiden, kann ein vorgehaltener Kalibrierungssatz oder eine Kreuzvalidierung verwendet werden, aber Platt schlägt zusätzlich vor, die Labels $y$ in Zielwahrscheinlichkeiten umzuwandeln

t_{+}={\frac {N_{+}+1}{N_{+}+2}}

für positive Proben (

y = 1

), und

t_{-}={\frac {1}{N_{-}+2}}

für negative Proben

y = -1

.

Hier sind $N +$ und $N -$ die Anzahl der positiven bzw. negativen Abtastwerte. Diese Transformation folgt, indem die Bayes-Regel auf ein Modell von Daten außerhalb der Stichprobe angewendet wird, die einen einheitlichen Vorrang vor den Labels haben. Die Konstanten 1 und 2 auf Zähler bzw. Nenner werden aus der Anwendung der Laplace-Glättung abgeleitet.

Platt selbst schlug vor, den Levenberg-Marquardt-Algorithmus zu verwenden, um die Parameter zu optimieren, aber später wurde ein Newton-Algorithmus vorgeschlagen, der numerisch stabiler sein sollte .

Analyse

Die Platt-Skalierung hat sich sowohl für SVMs als auch für andere Arten von Klassifizierungsmodellen als effektiv erwiesen, einschließlich Boosted- Modelle und sogar naive Bayes-Klassifikatoren , die verzerrte Wahrscheinlichkeitsverteilungen erzeugen. Es ist besonders effektiv für Max-Margin-Methoden wie SVMs und Boosted Trees, die sigmoidale Verzerrungen in ihren vorhergesagten Wahrscheinlichkeiten aufweisen, hat jedoch weniger Einfluss bei gut kalibrierten Modellen wie logistische Regression , Multilayer-Perzeptronen und Random Forests .

Ein alternativer Ansatz zur Wahrscheinlichkeitskalibrierung besteht darin, ein isotonisches Regressionsmodell an ein schlecht kalibriertes Wahrscheinlichkeitsmodell anzupassen. Dies funktioniert nachweislich besser als die Platt-Skalierung, insbesondere wenn genügend Trainingsdaten verfügbar sind.

Siehe auch

Relevanzvektormaschine : probabilistische Alternative zur Supportvektormaschine

Anmerkungen

Verweise

Languages

In other projects