Teilüberwachtes Lernen - Semi-supervised learning

Ein Beispiel für den Einfluss von unmarkierten Daten beim semi-überwachten Lernen. Das obere Feld zeigt eine Entscheidungsgrenze, die wir annehmen könnten, nachdem wir nur ein positives (weißer Kreis) und ein negatives (schwarzer Kreis) Beispiel gesehen haben. Das untere Feld zeigt eine Entscheidungsgrenze, die wir annehmen könnten, wenn wir zusätzlich zu den beiden gekennzeichneten Beispielen eine Sammlung von nicht gekennzeichneten Daten (graue Kreise) erhalten würden. Dies könnte als Clustering und anschließendes Beschriften der Cluster mit den markierten Daten, als Verschieben der Entscheidungsgrenze von hochdichten Regionen oder als Lernen einer zugrunde liegenden eindimensionalen Mannigfaltigkeit angesehen werden, in der sich die Daten befinden.

Semi-überwachtes Lernen ist ein Ansatz für maschinelles Lernen , der während des Trainings eine kleine Menge an gekennzeichneten Daten mit einer großen Menge an nicht gekennzeichneten Daten kombiniert . Semi-überwachtes Lernen liegt zwischen unüberwachtem Lernen (ohne gekennzeichnete Trainingsdaten) und überwachtem Lernen (nur mit gekennzeichneten Trainingsdaten). Es ist ein Sonderfall schwacher Aufsicht .

Nicht gekennzeichnete Daten können, wenn sie in Verbindung mit einer kleinen Menge gekennzeichneter Daten verwendet werden, eine beträchtliche Verbesserung der Lerngenauigkeit bewirken. Die Erfassung markierter Daten für ein Lernproblem erfordert oft einen erfahrenen menschlichen Agenten (zB um ein Audiosegment zu transkribieren) oder ein physikalisches Experiment (zB die 3D-Struktur eines Proteins zu bestimmen oder festzustellen, ob an einer bestimmten Stelle Öl vorhanden ist). Die mit dem Kennzeichnungsprozess verbundenen Kosten können somit große, vollständig gekennzeichnete Trainingssätze unmöglich machen, während die Erfassung von nicht gekennzeichneten Daten relativ kostengünstig ist. In solchen Situationen kann teilüberwachtes Lernen von großem praktischen Wert sein. Semi-überwachtes Lernen ist auch für maschinelles Lernen und als Modell für menschliches Lernen von theoretischem Interesse.

Ein Satz von unabhängig identisch verteilten Beispielen mit entsprechenden Labels und unmarkierten Beispielen wird verarbeitet. Beim halbüberwachten Lernen werden diese Informationen kombiniert, um die Klassifikationsleistung zu übertreffen , die entweder durch Verwerfen der nicht gekennzeichneten Daten und Durchführen von überwachtem Lernen oder durch Verwerfen der Etiketten und Durchführen von unüberwachtem Lernen erreicht werden kann. $l$ $x_{1},\dots,x_{l}\in X$ $y_{1},\dots,y_{l}\in Y$ $u$ $x_{l+1},\dots,x_{l+u}\in X$

Teilüberwachtes Lernen kann sich entweder auf transduktives Lernen oder auf induktives Lernen beziehen . Das Ziel des transduktiven Lernens besteht darin, nur für die gegebenen unmarkierten Daten die richtigen Labels abzuleiten . Das Ziel des induktiven Lernens ist es, die korrekte Zuordnung von zu abzuleiten . $x_{l+1},\dots,x_{l+u}$ $X$ $Y$

Intuitiv kann das Lernproblem als Prüfung betrachtet und Daten als Beispielaufgaben bezeichnet werden, die der Lehrer für die Klasse als Hilfestellung bei der Lösung anderer Probleme löst. Im transduktiven Setting wirken diese ungelösten Probleme als Prüfungsfragen. Im induktiven Setting werden sie zu Übungsaufgaben der Art, die die Prüfung ausmachen.

Es ist unnötig (und nach Vapniks Prinzip unklug), transduktives Lernen durch Ableiten einer Klassifikationsregel über den gesamten Eingaberaum durchzuführen; in der Praxis werden jedoch Algorithmen, die formal für die Transduktion oder Induktion entwickelt wurden, oft austauschbar verwendet.

Annahmen

Um ungekennzeichnete Daten nutzen zu können, muss eine Beziehung zur zugrunde liegenden Datenverteilung bestehen. Semi-überwachte Lernalgorithmen verwenden mindestens eine der folgenden Annahmen:

Kontinuitätsannahme

Punkte, die nahe beieinander liegen, teilen sich eher ein Label. Dies wird auch im überwachten Lernen allgemein angenommen und führt zu einer Bevorzugung geometrisch einfacher Entscheidungsgrenzen . Beim semi-überwachten Lernen führt die Glattheitsannahme zusätzlich zu einer Präferenz für Entscheidungsgrenzen in Regionen niedriger Dichte, sodass wenige Punkte nahe beieinander, aber in verschiedenen Klassen liegen.

Clusterannahme

Die Daten neigen dazu, diskrete Cluster zu bilden, und Punkte in demselben Cluster teilen sich eher ein Label (obwohl sich Daten mit einem gemeinsamen Label über mehrere Cluster verteilen können). Dies ist ein Spezialfall der Glätteannahme und führt zum Merkmalslernen mit Clustering-Algorithmen.

Vielfältige Annahme

Die Daten liegen ungefähr auf einer Mannigfaltigkeit von viel geringerer Dimension als der Eingaberaum. In diesem Fall kann das Erlernen der Mannigfaltigkeit unter Verwendung sowohl der markierten als auch der unbeschrifteten Daten den Fluch der Dimensionalität vermeiden . Dann kann das Lernen unter Verwendung von Abständen und Dichten fortschreiten, die auf der Mannigfaltigkeit definiert sind.

Die mannigfaltige Annahme ist praktisch, wenn hochdimensionale Daten durch einen Prozess erzeugt werden, der möglicherweise schwer direkt zu modellieren ist, aber nur wenige Freiheitsgrade hat. Zum Beispiel wird die menschliche Stimme von einigen Stimmlippen gesteuert, und Bilder verschiedener Gesichtsausdrücke werden von wenigen Muskeln gesteuert. In diesen Fällen sind Abstände und Glätte im natürlichen Raum des erzeugenden Problems der Betrachtung des Raums aller möglichen akustischen Wellen bzw. Bilder überlegen.

Geschichte

Der heuristische Ansatz des Selbsttrainings (auch als Selbstlernen oder Selbstbeschriftung bekannt ) ist historisch der älteste Ansatz zum teilüberwachten Lernen, mit Anwendungsbeispielen, die in den 1960er Jahren beginnen.

Der transduktive Lernrahmen wurde in den 1970er Jahren von Vladimir Vapnik offiziell eingeführt . Auch das Interesse am induktiven Lernen mit generativen Modellen begann in den 1970er Jahren. Ein wahrscheinlich annähernd richtiges Lernen für halb- überwachtes Lernen einer gebundenes Gaußschen Mischung wurde durch Ratsaby und Venkatesh 1995 unter Beweis gestellt.

Semi-überwachtes Lernen hat in letzter Zeit aufgrund der Vielzahl von Problemen, für die Unmengen an unmarkierten Daten verfügbar sind – zB Texte auf Websites, Proteinsequenzen oder Bilder – immer beliebter und praktisch relevanter geworden.

Methoden

Generative Modelle

Generative Ansätze des statistischen Lernens versuchen zunächst , die Verteilung der zu jeder Klasse gehörenden Datenpunkte abzuschätzen . Die Wahrscheinlichkeit, dass ein gegebener Punkt ein Label hat, ist dann nach der Bayes-Regel proportional . Semi-überwachtes Lernen mit generativen Modellen kann entweder als Erweiterung des überwachten Lernens (Klassifikation plus Informationen zu ) oder als Erweiterung des unüberwachten Lernens (Clustering plus einige Labels) betrachtet werden. $p(x|y)$ $p(y|x)$ $x$ $y$ $p(x|y)p(y)$ $p(x)$

Generative Modelle gehen davon aus, dass die Verteilungen eine bestimmte Form annehmen, die durch den Vektor parametrisiert wird . Wenn diese Annahmen falsch sind, können die nicht gekennzeichneten Daten die Genauigkeit der Lösung im Vergleich zu dem, was allein aus den gekennzeichneten Daten erhalten worden wäre, tatsächlich verringern. Wenn die Annahmen jedoch richtig sind, verbessern die nicht gekennzeichneten Daten notwendigerweise die Leistung. $p(x|y,\theta)$ ${\displaystyle\theta}$

Die unmarkierten Daten werden gemäß einer Mischung von Einzelklassenverteilungen verteilt. Um aus den unmarkierten Daten die Gemischverteilung zu lernen, muss diese identifizierbar sein, dh unterschiedliche Parameter müssen unterschiedliche Summenverteilungen ergeben. Gaußsche Mischungsverteilungen sind identifizierbar und werden häufig für generative Modelle verwendet.

Die parametrisierte gemeinsame Verteilung kann wie unter Verwendung der Kettenregel geschrieben werden . Jeder Parametervektor ist einer Entscheidungsfunktion zugeordnet . Der Parameter wird dann basierend auf der Anpassung an die beschrifteten und unbeschrifteten Daten ausgewählt, gewichtet mit : $p(x,y|\theta)=p(y|\theta)p(x|y,\theta)$ ${\displaystyle\theta}$ $f_{\theta}(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta)$ $\lambda$

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\ theta)+\lambda\log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta)\right)

Trennung mit geringer Dichte

Eine andere Hauptklasse von Methoden versucht, Grenzen in Regionen mit wenigen Datenpunkten (beschriftet oder unbeschriftet) zu platzieren. Einer der am häufigsten verwendeten Algorithmen ist die transduktive Support-Vektor-Maschine oder TSVM (die trotz ihres Namens auch für induktives Lernen verwendet werden kann). Während Support-Vektor-Maschinen für überwachtes Lernen eine Entscheidungsgrenze mit maximalem Spielraum über die gekennzeichneten Daten suchen , ist das Ziel von TSVM eine Kennzeichnung der nicht gekennzeichneten Daten, so dass die Entscheidungsgrenze einen maximalen Spielraum über alle Daten hat. Zusätzlich zum standardmäßigen Scharnierverlust für beschriftete Daten wird eine Verlustfunktion über die unbeschrifteten Daten eingeführt, indem man lässt . TSVM wählt dann aus einem reproduzierenden Kernel-Hilbert-Raum aus, indem das regularisierte empirische Risiko minimiert wird : $(1-yf(x))_{+}$ $(1-|f(x)|)_{+}$ $y=\operatorname {sign} {f(x)}$ $f^{*}(x)=h^{*}(x)+b$ ${\mathcal{H}}$

f^{*}={\underset {f}{\operatorname {argmin}}}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_ {i}))_{+}+\lambda_{1}\|h\|_{\mathcal{H}}^{2}+\lambda_{2}\sum_{i=l+1} ^{l+u}(1-|f(x_{i})|)_{+}\right)

Eine exakte Lösung unlösbar aufgrund des nicht - konvexen Begriffs , so konzentriert sich Forschung auf nützliche Annäherungen. $(1-|f(x)|)_{+}$

Andere Ansätze, die eine Trennung mit niedriger Dichte implementieren, umfassen Gaußsche Prozessmodelle, Informationsregularisierung und Entropieminimierung (von denen TSVM ein Sonderfall ist).

Laplacesche Regularisierung

Die Laplace-Regularisierung wurde historisch durch die Graph-Laplace-Funktion angegangen. Graphbasierte Methoden für semi-überwachtes Lernen verwenden eine graphische Darstellung der Daten mit einem Knoten für jedes beschriftete und unbeschriftete Beispiel. Der Graph kann unter Verwendung von Domänenwissen oder Ähnlichkeit von Beispielen konstruiert werden; zwei gängige Methoden sind, jeden Datenpunkt mit seinen nächsten Nachbarn oder mit Beispielen in einiger Entfernung zu verbinden . Das Gewicht einer Kante zwischen und wird dann auf gesetzt . $k$ $\epsilon$ $W_{ij}$ $x_{i}$ $x_{j}$ $e^{\frac {-\|x_{i}-x_{j}\|^{2}}{\epsilon}}$

Im Rahmen der Mannigfaltigkeitsregularisierung dient der Graph als Stellvertreter für die Mannigfaltigkeit. Dem Standard- Tikhonov-Regularisierungsproblem wird ein Term hinzugefügt, um die Glätte der Lösung relativ zur Mannigfaltigkeit (im intrinsischen Raum des Problems) sowie relativ zum umgebenden Eingaberaum zu erzwingen. Das Minimierungsproblem wird

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^ {l}V(f(x_{i}),y_{i})+\lambda_{A}\|f\|_{\mathcal{H}}^{2}+\lambda_{I}\ int _{\mathcal{M}}\|\nabla_{\mathcal{M}}f(x)\|^{2}dp(x)\right)

wo ist ein reproduzierender Kernel- Hilbert-Raum und ist die Mannigfaltigkeit, auf der die Daten liegen. Die Regularisierungsparameter und steuern die Glätte im umgebenden bzw. intrinsischen Raum. Der Graph wird verwendet, um den intrinsischen Regularisierungsterm anzunähern. Definieren des Laplace-Graphen wo und des Vektors haben wir ${\mathcal{H}}$ ${\mathcal{M}}$ $\lambda_{A}$ $\lambda_{I}$ $L=DW$ $D_{ii}=\sum_{j=1}^{l+u}W_{ij}$ ${\displaystyle\mathbf{f}}$ $[f(x_{1})\dots f(x_{l+u})]$

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j })^{2}\approx \int_{\mathcal{M}}\|\nabla_{\mathcal{M}}f(x)\|^{2}dp(x)

.

Der graphenbasierte Ansatz zur Laplace-Regularisierung ist mit der Finite-Differenzen-Methode in Beziehung zu setzen .

Der Laplace-Algorithmus kann auch verwendet werden, um die überwachten Lernalgorithmen zu erweitern: regularisierte kleinste Quadrate und Support-Vektor-Maschinen (SVM) zu halbüberwachten Versionen Laplace-reguläre kleinste Quadrate und Laplace-SVM.

Heuristische Ansätze

Einige Methoden des semi-überwachten Lernens sind nicht intrinsisch darauf ausgerichtet, sowohl aus unmarkierten als auch aus markierten Daten zu lernen, sondern verwenden stattdessen unmarkierte Daten innerhalb eines überwachten Lernrahmens. Beispielsweise können die gekennzeichneten und nicht gekennzeichneten Beispiele in einem unbeaufsichtigten ersten Schritt eine Auswahl der Darstellung, der Distanzmetrik oder des Kernels für die Daten informieren . Dann geht das überwachte Lernen nur von den gekennzeichneten Beispielen aus. In diesem Sinne lernen einige Verfahren eine niedrigdimensionale Darstellung unter Verwendung der überwachten Daten und wenden dann entweder eine Trennung mit niedriger Dichte oder grafenbasierte Verfahren auf die erlernte Darstellung an. Das iterative Verfeinern der Darstellung und das anschließende Durchführen eines halbüberwachten Lernens an der Darstellung kann die Leistung weiter verbessern. $x_{1},\dots,x_{l+u}$

Selbsttraining ist eine Wrapper-Methode für semi-überwachtes Lernen. Zuerst wird ein überwachter Lernalgorithmus nur basierend auf den gekennzeichneten Daten trainiert. Dieser Klassifizierer wird dann auf die nicht gekennzeichneten Daten angewendet, um weitere gekennzeichnete Beispiele als Eingabe für den überwachten Lernalgorithmus zu erzeugen. Im Allgemeinen werden bei jedem Schritt nur die Labels hinzugefügt, denen der Klassifikator am sichersten ist.

Co-Training ist eine Erweiterung des Selbsttrainings, bei der mehrere Klassifikatoren an unterschiedlichen (idealerweise disjunkten) Merkmalssätzen trainiert werden und füreinander beschriftete Beispiele generieren.

In der menschlichen Erkenntnis

Menschliche Reaktionen auf formale semi-überwachte Lernprobleme haben zu unterschiedlichen Schlussfolgerungen über das Ausmaß des Einflusses der unmarkierten Daten geführt. Natürlichere Lernprobleme können auch als Beispiele für halbüberwachtes Lernen angesehen werden. Ein Großteil des Lernens menschlicher Konzepte beinhaltet eine kleine Menge direkter Anweisungen (zB elterliche Benennung von Objekten in der Kindheit) kombiniert mit einer großen Menge an unmarkierten Erfahrungen (zB Beobachtung von Objekten ohne sie zu benennen oder zu zählen oder zumindest ohne Feedback).

Menschliche Säuglinge reagieren sensibel auf die Struktur nicht gekennzeichneter natürlicher Kategorien wie Bilder von Hunden und Katzen oder männlichen und weiblichen Gesichtern. Säuglinge und Kinder berücksichtigen nicht nur nicht gekennzeichnete Beispiele, sondern auch den Stichprobenprozess , aus dem gekennzeichnete Beispiele entstehen.

Siehe auch

Verweise

Quellen

Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Teilüberwachtes Lernen . Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-03358-9.

Externe Links

Manifold Regularization Eine frei verfügbare MATLAB- Implementierung der graphbasierten semi-überwachten Algorithmen Laplace-Unterstützungsvektormaschinen und Laplace-Regularized Least Squares.
KEEL: Ein Software-Tool zur Bewertung evolutionärer Algorithmen für Data-Mining-Probleme (Regression, Klassifizierung, Clustering, Pattern-Mining usw.) KEEL-Modul für semi-überwachtes Lernen.
Halbüberwachte Lernsoftware Halbüberwachte Lernsoftware
1.14. Semi-Supervised — scikit-learn 0.22.1 Dokumentation Semi-Supervised Algorithmen in scikit-learn .

Languages

In other projects