Generalisierungsfehler - Generalization error
Für überwachte Lernanwendungen im Bereich des maschinellen Lernens und der statistischen Lerntheorie ist der Generalisierungsfehler (auch als Out-of-Sample-Fehler oder Risiko bezeichnet ) ein Maß dafür, wie genau ein Algorithmus Ergebniswerte für zuvor nicht sichtbare Daten vorhersagen kann. Da Lernalgorithmen an endlichen Stichproben bewertet werden, kann die Bewertung eines Lernalgorithmus empfindlich auf Stichprobenfehler reagieren . Infolgedessen liefern Messungen des Vorhersagefehlers an den aktuellen Daten möglicherweise nicht viele Informationen über die Vorhersagefähigkeit neuer Daten. Generalisierungsfehler können minimiert werden, indem eine Überanpassung des Lernalgorithmus vermieden wird . Die Leistung eines Algorithmus für maschinelles Lernen wird durch Diagramme visualisiert, die Werte von Schätzungen des Generalisierungsfehlers während des Lernprozesses zeigen, die als Lernkurven bezeichnet werden .
Definition
In einem Lernproblem besteht das Ziel darin, eine Funktion zu entwickeln , die Ausgabewerte für jedes Eingabedatum vorhersagt . Der Index gibt an, dass die Funktion basierend auf einem Datensatz von Datenpunkten entwickelt wurde. Der Generalisierungsfehler oder erwartete Verlust oder Risiko , eine bestimmten Funktion über alle möglichen Werte von und ist:
wobei eine Verlustfunktion bezeichnet und die unbekannte gemeinsame Wahrscheinlichkeitsverteilung für und ist .
Ohne Kenntnis der gemeinsamen Wahrscheinlichkeitsverteilung ist eine Berechnung unmöglich . Stattdessen können wir den Fehler anhand von Probendaten berechnen, der als empirischer Fehler (oder empirisches Risiko ) bezeichnet wird. Bei gegebenen Datenpunkten ist der empirische Fehler einer Kandidatenfunktion :
Ein Algorithmus soll verallgemeinern, wenn:
Von besonderer Bedeutung ist der Generalisierungsfehler der datenabhängigen Funktion , der von einem auf der Stichprobe basierenden Lernalgorithmus gefunden wird. Auch hier kann für eine unbekannte Wahrscheinlichkeitsverteilung nicht berechnet werden. Stattdessen besteht das Ziel vieler Probleme in der statistischen Lerntheorie darin, den Unterschied zwischen dem Generalisierungsfehler und dem empirischen Wahrscheinlichkeitsfehler zu begrenzen oder zu charakterisieren:
Das heißt, das Ziel besteht darin, die Wahrscheinlichkeit zu charakterisieren, dass der Generalisierungsfehler kleiner als der empirische Fehler plus eine gewisse Fehlergrenze ist (im Allgemeinen abhängig von und ). Für viele Arten von Algorithmen wurde gezeigt, dass ein Algorithmus Generalisierungsgrenzen aufweist, wenn er bestimmte Stabilitätskriterien erfüllt. Insbesondere wenn ein Algorithmus symmetrisch ist (die Reihenfolge der Eingaben hat keinen Einfluss auf das Ergebnis), einen begrenzten Verlust aufweist und zwei Stabilitätsbedingungen erfüllt, wird er verallgemeinert. Die erste Stabilitätsbedingung, die Stabilität der einmaligen Kreuzvalidierung , besagt, dass der Vorhersagefehler für jeden Datenpunkt bei Verwendung der einmaligen Kreuzvalidierung gegen Null konvergieren muss, um stabil zu sein . Die zweite Bedingung, die erwartete Fehlerstabilität (auch als Hypothesenstabilität bezeichnet, wenn in der Norm gearbeitet wird ), ist erfüllt, wenn sich die Vorhersage für einen ausgelassenen Datenpunkt nicht ändert, wenn ein einzelner Datenpunkt aus dem entfernt wird Trainingsdatensatz.
Diese Bedingungen können wie folgt formalisiert werden:
Ausgelassene Kreuzvalidierungsstabilität
Ein Algorithmus hat Stabilität, wenn für jeden ein und ein solches existiert, dass:
und und gehe auf Null wie geht ins Unendliche.
Erwarteter Auslassfehler Stabilität
Ein Algorithmus hat Stabilität, wenn für jeden ein und ein solcher existiert, dass:
mit und auf Null gehen für .
Für die Auslassungsstabilität in der Norm entspricht dies der Hypothesenstabilität:
mit auf Null gehen wie auf unendlich.
Algorithmen mit nachgewiesener Stabilität
Eine Reihe von Algorithmen hat sich als stabil erwiesen und hat daher Grenzen für ihren Generalisierungsfehler. Eine Liste dieser Algorithmen und der Papiere, die Stabilität bewiesen haben, finden Sie hier .
Verhältnis zur Überanpassung
Die Konzepte von Generalisierungsfehler und Überanpassung sind eng miteinander verbunden. Eine Überanpassung tritt auf, wenn die gelernte Funktion für das Rauschen in der Probe empfindlich wird. Infolgedessen ist die Funktion für den Trainingssatz gut, für andere Daten aus der gemeinsamen Wahrscheinlichkeitsverteilung von und jedoch nicht gut . Je mehr Überanpassungen auftreten, desto größer ist der Generalisierungsfehler.
Das Ausmaß der Überanpassung kann mithilfe von Kreuzvalidierungsmethoden getestet werden , bei denen die Probe in simulierte Trainingsmuster und Testmuster aufgeteilt wird. Das Modell wird dann an einer Trainingsprobe trainiert und an der Testprobe bewertet. Die Teststichprobe wurde bisher vom Algorithmus nicht gesehen und stellt somit eine Zufallsstichprobe aus der gemeinsamen Wahrscheinlichkeitsverteilung von und dar . Dieses Testbeispiel ermöglicht es uns, den erwarteten Fehler und als Ergebnis eine bestimmte Form des Generalisierungsfehlers zu approximieren.
Es gibt viele Algorithmen, um eine Überanpassung zu verhindern. Der Minimierungsalgorithmus kann komplexere Funktionen bestrafen (bekannt als Tikhonov- Regularisierung ), oder der Hypothesenraum kann entweder explizit in Form der Funktionen oder durch Hinzufügen von Einschränkungen zur Minimierungsfunktion (Ivanov-Regularisierung) eingeschränkt werden.
Der Ansatz, eine Funktion zu finden, die nicht überpasst, steht im Widerspruch zu dem Ziel, eine Funktion zu finden, die ausreichend komplex ist, um die besonderen Merkmale der Daten zu erfassen. Dies ist als Bias-Varianz-Kompromiss bekannt . Wenn Sie eine Funktion einfach halten, um eine Überanpassung zu vermeiden, kann dies zu einer Verzerrung der resultierenden Vorhersagen führen, während eine komplexere Funktion zu einer Überanpassung und einer höheren Varianz der Vorhersagen führt. Es ist unmöglich, beide gleichzeitig zu minimieren.
Verweise
Weiterführende Literatur
- Bousquet, O., S. Boucheron und G. Lugosi. Einführung in die statistische Lerntheorie . Fortgeschrittene Vorlesungen zum maschinellen Lernen Vorlesungsunterlagen in Künstlicher Intelligenz 3176, 169-207. (Hrsg.) Bousquet, O., U. von Luxburg und G. Ratsch, Springer, Heidelberg, Deutschland (2004)
- Bousquet, O. und A. Elisseef (2002), Stabilität und Verallgemeinerung, Journal of Machine Learning Research, 499-526.
- Devroye L., L. Gyorfi und G. Lugosi (1996). Eine probabilistische Theorie der Mustererkennung. Springer-Verlag. ISBN 978-0387946184 .
- Poggio T. und S. Smale. Die Mathematik des Lernens: Umgang mit Daten . Mitteilungen des AMS, 2003
- Vapnik, V. (2000). Die Natur der statistischen Lerntheorie. Informationswissenschaft und Statistik. Springer-Verlag. ISBN 978-0-387-98780-4 .
- Bishop, CM (1995), Neuronale Netze zur Mustererkennung , Oxford: Oxford University Press, insbesondere Abschnitt 6.4.
- Finke, M. und Müller, K.-R. (1994), " Schätzung a-posteriori-Wahrscheinlichkeiten unter Verwendung stochastischer Netzwerkmodelle ", in Mozer, Smolensky, Touretzky, Elman & Weigend, Hrsg., Proceedings of the 1993 Connectionist Models Summer School , Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324–331.
- Geman, S., Bienenstock, E. und Doursat, R. (1992), " Neuronale Netze und das Bias / Varianz-Dilemma ", Neural Computation , 4, 1-58.
- Husmeier, D. (1999), Neuronale Netze zur bedingten Wahrscheinlichkeitsschätzung: Vorhersage über Punktvorhersagen hinaus , Berlin: Springer Verlag, ISBN 1-85233-095-3 .
- McCullagh, P. und Nelder, JA (1989) Generalized Linear Models , 2. Auflage, London: Chapman & Hall.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Grundlagen des maschinellen Lernens , 2. Aufl., Boston: MIT Press.
- Moody, JE (1992), " Die effektive Anzahl von Parametern: Eine Analyse der Generalisierung und Regularisierung in nichtlinearen Lernsystemen ", in Moody, JE, Hanson, SJ und Lippmann, RP, Fortschritte in neuronalen Informationsverarbeitungssystemen 4, 847- 854.
- Ripley, BD (1996) Mustererkennung und neuronale Netze , Cambridge: Cambridge University Press.
- Rohwer, R. und van der Rest, JC (1996), " Minimum Description Length, Regularization and Multimodal Data ", Neural Computation , 8, 595-609.
- Rojas, R. (1996), " Ein kurzer Beweis der posterioren Wahrscheinlichkeitseigenschaft von Klassifikator-Neuronalen Netzen ", Neural Computation , 8, 41-43.
- White, H. (1990), " Connectionist Nonparametric Regression: Mehrschichtige Feedforward-Netzwerke können beliebige Zuordnungen lernen ", Neural Networks , 3, 535-550. Nachdruck in Weiß (1992).
- White, H. (1992a), " Nonparametric Estimation of Conditional Quantiles Using Neural Networks ", in Page, C. und Le Page, R. (Hrsg.), Proceedings of the 23. Sympsium on the Interface: Computing Science and Statistics , Alexandria , VA: American Statistical Association, S. 190–199. Nachdruck in Weiß (1992b).
- White, H. (1992b), Künstliche Neuronale Netze: Approximations- und Lerntheorie , Blackwell.