Platt-Skalierung - Platt scaling

Beim maschinellen Lernen ist die Platt-Skalierung oder Platt-Kalibrierung eine Möglichkeit, die Ausgaben eines Klassifizierungsmodells in eine Wahrscheinlichkeitsverteilung über Klassen umzuwandeln . Die Methode wurde von John Platt im Kontext von Support Vector Machines erfunden und ersetzt eine frühere Methode von Vapnik , kann aber auf andere Klassifikationsmodelle angewendet werden. Die Platt-Skalierung funktioniert durch Anpassung eines logistischen Regressionsmodells an die Scores eines Klassifikators.

Beschreibung

Betrachten Sie das Problem der binären Klassifikation : Für Eingaben x wollen wir feststellen, ob sie zu einer von zwei Klassen gehören, die willkürlich mit +1 und −1 bezeichnet werden . Wir nehmen an, dass das Klassifikationsproblem durch eine reellwertige Funktion f gelöst wird , indem ein Klassenlabel y = sign( f ( x )) vorhergesagt wird . Für viele Probleme ist es praktisch, eine Wahrscheinlichkeit zu erhalten , dh eine Klassifizierung, die nicht nur eine Antwort, sondern auch ein gewisses Maß an Sicherheit über die Antwort liefert. Einige Klassifikationsmodelle liefern eine solche Wahrscheinlichkeit nicht oder geben schlechte Wahrscheinlichkeitsschätzungen ab.

Die Platt-Skalierung ist ein Algorithmus zur Lösung des oben genannten Problems. Es erzeugt Wahrscheinlichkeitsschätzungen

,

dh eine logistische Transformation der Klassifiziererbewertungen f ( x ) , wobei A und B zwei skalare Parameter sind, die durch den Algorithmus gelernt werden. Beachten Sie, dass Vorhersagen jetzt danach gemacht werden können, ob die Wahrscheinlichkeitsschätzungen eine Korrektur im Vergleich zur alten Entscheidungsfunktion y = sign( f ( x )) enthalten .

Die Parameter A und B werden unter Verwendung eines Maximum-Likelihood- Verfahrens geschätzt , das auf dem gleichen Trainingssatz wie dem für den ursprünglichen Klassifikator f optimiert . Um eine Überanpassung an diesen Satz zu vermeiden, kann ein vorgehaltener Kalibrierungssatz oder eine Kreuzvalidierung verwendet werden, aber Platt schlägt zusätzlich vor, die Labels y in Zielwahrscheinlichkeiten umzuwandeln

für positive Proben ( y = 1 ), und
für negative Proben y = -1 .

Hier sind N + und N die Anzahl der positiven bzw. negativen Abtastwerte. Diese Transformation folgt, indem die Bayes-Regel auf ein Modell von Daten außerhalb der Stichprobe angewendet wird, die einen einheitlichen Vorrang vor den Labels haben. Die Konstanten 1 und 2 auf Zähler bzw. Nenner werden aus der Anwendung der Laplace-Glättung abgeleitet.

Platt selbst schlug vor, den Levenberg-Marquardt-Algorithmus zu verwenden, um die Parameter zu optimieren, aber später wurde ein Newton-Algorithmus vorgeschlagen, der numerisch stabiler sein sollte .

Analyse

Die Platt-Skalierung hat sich sowohl für SVMs als auch für andere Arten von Klassifizierungsmodellen als effektiv erwiesen, einschließlich Boosted- Modelle und sogar naive Bayes-Klassifikatoren , die verzerrte Wahrscheinlichkeitsverteilungen erzeugen. Es ist besonders effektiv für Max-Margin-Methoden wie SVMs und Boosted Trees, die sigmoidale Verzerrungen in ihren vorhergesagten Wahrscheinlichkeiten aufweisen, hat jedoch weniger Einfluss bei gut kalibrierten Modellen wie logistische Regression , Multilayer-Perzeptronen und Random Forests .

Ein alternativer Ansatz zur Wahrscheinlichkeitskalibrierung besteht darin, ein isotonisches Regressionsmodell an ein schlecht kalibriertes Wahrscheinlichkeitsmodell anzupassen. Dies funktioniert nachweislich besser als die Platt-Skalierung, insbesondere wenn genügend Trainingsdaten verfügbar sind.

Siehe auch

Anmerkungen

Verweise