Tikhonov-Regularisierung - Tikhonov regularization

Die Tikhonov-Regularisierung , benannt nach Andrey Tikhonov , ist eine Methode zur Regularisierung von schlecht gestellten Problemen . Auch bekannt als Ridge-Regression , ist es besonders nützlich, das Problem der Multikollinearität bei der linearen Regression zu mildern , das häufig bei Modellen mit einer großen Anzahl von Parametern auftritt. Im Allgemeinen bietet die Methode eine verbesserte Effizienz bei Parameterschätzungsproblemen im Austausch für ein tolerierbares Maß an Bias (siehe Bias-Varianz-Tradeoff ).

Im einfachsten Fall wird das Problem einer nahezu singulären Momentenmatrix dadurch gemildert, dass den Diagonalen positive Elemente hinzugefügt werden , wodurch deren Zustandszahl verringert wird . Analog zum gewöhnlichen Kleinste-Quadrate- Schätzer ist der einfache Ridge-Schätzer dann gegeben durch

wobei ist der Regressand , ist die Entwurfsmatrix , ist die Identitätsmatrix und der Ridge-Parameter dient als die Konstante, die die Diagonalen der Momentenmatrix verschiebt. Es kann gezeigt werden, dass dieser Schätzer die Lösung des Problems der kleinsten Quadrate unter der Bedingung ist , die als Lagrange-Operator ausgedrückt werden kann:

was zeigt, dass dies nichts anderes ist als der Lagrange-Multiplikator der Einschränkung. Im Fall von , in dem die Einschränkung nicht verbindlich ist , reduziert sich der Gratschätzer auf gewöhnliche kleinste Quadrate . Ein allgemeinerer Ansatz zur Tikhonov-Regularisierung wird unten diskutiert.

Geschichte

Die Tikhonov-Regularisierung wurde unabhängig in vielen verschiedenen Kontexten erfunden. Es wurde weithin bekannt durch seine Anwendung auf Integralgleichungen aus der Arbeit von Andrey Tikhonov und David L. Phillips. Einige Autoren verwenden den Begriff Tikhonov-Phillips-Regularisierung . Der endlichdimensionale Fall wurde von Arthur E. Hoerl , der einen statistischen Ansatz verfolgte, und von Manus Foster erläutert , der diese Methode als Wiener-Kolmogorov (Kriging) -Filter interpretierte . In Anlehnung an Hörl wird sie in der statistischen Literatur als Ridge-Regression bezeichnet.

Tikhonov-Regularisierung

Angenommen , wir möchten für eine bekannte Matrix und einen bekannten Vektor einen Vektor finden, so dass

Der Standardansatz ist die gewöhnliche lineare Regression der kleinsten Quadrate . Erfüllt jedoch keine die Gleichung oder mehr als eine – das heißt, die Lösung ist nicht eindeutig – wird das Problem als schlecht gestellt bezeichnet . In solchen Fällen führt die gewöhnliche Kleinste-Quadrate-Schätzung zu einem überbestimmten oder häufiger einem unterbestimmten Gleichungssystem. Die meisten realen Phänomene haben die Wirkung von Tiefpassfilter in der Vorwärtsrichtung , wo Karten zu . Daher arbeitet bei der Lösung des inversen Problems die inverse Abbildung als Hochpassfilter , der die unerwünschte Tendenz hat, Rauschen zu verstärken ( Eigenwerte /Singulärwerte sind bei der Rückwärtsabbildung am größten, wo sie bei der Vorwärtsabbildung am kleinsten waren). Darüber hinaus annulliert gewöhnliche kleinste Quadrate implizit jedes Element der rekonstruierten Version davon , das sich im Nullraum von befindet , anstatt zuzulassen, dass ein Modell als Prior für verwendet wird . Gewöhnliche kleinste Quadrate versucht die Summe der quadrierten Residuen zu minimieren , die kompakt geschrieben werden kann als

wo ist die euklidische Norm .

Um einer bestimmten Lösung mit wünschenswerten Eigenschaften den Vorzug zu geben, kann in diese Minimierung ein Regularisierungsterm eingefügt werden:

für eine geeignet gewählte Tikhonov-Matrix . In vielen Fällen wird diese Matrix als Vielfaches der Identitätsmatrix ( ) gewählt, wobei Lösungen mit kleineren Normen bevorzugt werden ; dies wird als L 2 -Regularisierung bezeichnet . In anderen Fällen können Hochpassoperatoren (z. B. ein Differenzoperator oder ein gewichteter Fourieroperator ) verwendet werden, um die Glätte zu erzwingen, wenn angenommen wird, dass der zugrunde liegende Vektor größtenteils kontinuierlich ist. Diese Regularisierung verbessert die Konditionierung des Problems und ermöglicht so eine direkte numerische Lösung. Eine explizite Lösung, bezeichnet mit , ist gegeben durch

Die Wirkung der Regularisierung kann durch den Maßstab der Matrix variiert werden . Denn dies reduziert sich auf die unregularisierte Lösung der kleinsten Quadrate, sofern (A T A) −1 existiert.

Die L 2 -Regularisierung wird in vielen Kontexten neben der linearen Regression verwendet, wie z. B. der Klassifikation mit logistischer Regression oder Support-Vektor-Maschinen und der Matrixfaktorisierung.

Generalisierte Tikhonov-Regularisierung

Für allgemeine multivariate Normalverteilungen für und den Datenfehler kann man eine Transformation der Variablen anwenden, um sie auf den obigen Fall zu reduzieren. Äquivalent kann man nach einem suchen, um zu minimieren

wobei wir früher für die gewichtete Norm zum Quadrat standen (vergleiche mit der Mahalanobis-Distanz ). In der Bayes'schen Interpretation ist die inverse Kovarianzmatrix von , ist der Erwartungswert von und ist die inverse Kovarianzmatrix von . Die Tikhonov-Matrix wird dann als Faktorisierung der Matrix (zB die Cholesky-Faktorisierung ) angegeben und gilt als Aufhellungsfilter .

Dieses verallgemeinerte Problem hat eine optimale Lösung , die explizit mit der Formel geschrieben werden kann

oder gleichwertig

Lawrentjew-Regularisierung

In einigen Situationen kann man die Transponierung vermeiden , wie von Michail Lawrentjew vorgeschlagen . Wenn zum Beispiel symmetrisch positiv definit ist, also auch seine Umkehrung , die somit verwendet werden kann, um die gewichtete Norm quadriert in der verallgemeinerten Tikhonov-Regularisierung aufzustellen , was zu Minimierung führt

oder, äquivalent bis zu einem konstanten Term,

.

Dieses Minimierungsproblem hat eine optimale Lösung , die explizit mit der Formel geschrieben werden kann

,

was nichts anderes als die Lösung des verallgemeinerten Tikhonov-Problems ist, wobei

Die Lavrentyev-Regularisierung, falls zutreffend, ist gegenüber der ursprünglichen Tikhonov-Regularisierung vorteilhaft, da die Lavrentyev-Matrix besser konditioniert werden kann, dh eine kleinere Bedingungszahl hat als die Tikhonov-Matrix

Regularisierung im Hilbertraum

Typischerweise resultieren diskrete lineare schlecht konditionierte Probleme aus der Diskretisierung von Integralgleichungen , und man kann eine Tikhonov-Regularisierung im ursprünglichen unendlich-dimensionalen Kontext formulieren. In der oben können wir interpretieren als kompakten Operator auf Hilbert - Räumen , und und als Elemente in der Domäne und die Reichweite . Der Operator ist dann ein selbstadjungierter beschränkter invertierbarer Operator.

Beziehung zur Singulärwertzerlegung und Wiener Filter

Mit kann diese Kleinste-Quadrate-Lösung in besonderer Weise mit der Singulärwertzerlegung analysiert werden . Gegeben sei die Singulärwertzerlegung

mit singulären Werten kann die regularisierte Tikhonov-Lösung ausgedrückt werden als

wo hat Diagonalwerte

und ist an anderer Stelle null. Dies demonstriert die Wirkung des Tikhonov-Parameters auf die Bedingungszahl des regularisierten Problems. Für den verallgemeinerten Fall kann eine ähnliche Darstellung unter Verwendung einer verallgemeinerten Singulärwertzerlegung abgeleitet werden .

Schließlich hängt es mit dem Wiener-Filter zusammen :

wobei die Wiener-Gewichte sind und der Rang von ist .

Bestimmung des Tikhonov-Faktors

Der optimale Regularisierungsparameter ist normalerweise unbekannt und wird bei praktischen Problemen oft durch ein Ad-hoc- Verfahren bestimmt. Ein möglicher Ansatz beruht auf der unten beschriebenen Bayes'schen Interpretation. Andere Ansätze umfassen das Diskrepanzprinzip , Kreuzvalidierung , L-Kurven-Methode , eingeschränkte maximale Wahrscheinlichkeit und unverzerrter prädiktiver Risikoschätzer . Grace Wahba hat bewiesen, dass der optimale Parameter im Sinne einer Leave-One-Out-Kreuzvalidierung minimiert

Dabei ist die Restsumme der Quadrate und die effektive Anzahl der Freiheitsgrade .

Mit der vorherigen SVD-Zerlegung können wir den obigen Ausdruck vereinfachen:

und

Bezug zur probabilistischen Formulierung

Die probabilistische Formulierung eines inversen Problems führt (wenn alle Unsicherheiten gaußförmig sind) eine Kovarianzmatrix ein, die die a-priori- Unsicherheiten der Modellparameter darstellt, und eine Kovarianzmatrix, die die Unsicherheiten der beobachteten Parameter darstellt. In dem speziellen Fall , wenn diese beiden Matrizen sind diagonal und isotrop ist , und , und, in diesem Fall reduzieren sich die Gleichungen der inversen Theorie den Gleichungen oben, mit .

Bayessche Interpretation

Obwohl die Wahl der Lösung dieses regularisierten Problems auf den ersten Blick künstlich erscheinen mag und die Matrix tatsächlich ziemlich willkürlich erscheint, lässt sich der Prozess aus bayesianischer Sicht rechtfertigen . Beachten Sie, dass für ein schlecht gestelltes Problem notwendigerweise einige zusätzliche Annahmen eingeführt werden müssen, um eine eindeutige Lösung zu erhalten. Statistisch wird die A- priori-Wahrscheinlichkeitsverteilung von manchmal als multivariate Normalverteilung angesehen . Der Einfachheit halber werden hier die folgenden Annahmen gemacht: die Mittelwerte sind null; ihre Komponenten sind unabhängig; die Komponenten haben die gleiche Standardabweichung . Die Daten sind auch fehlerbehaftet, und die Fehler in werden ebenfalls als unabhängig mit Nullmittelwert und Standardabweichung angenommen . Unter diesen Annahmen ist die Tikhonov-regularisierte Lösung die wahrscheinlichste Lösung, wenn die Daten und die a-priori- Verteilung von nach dem Satz von Bayes gegeben sind .

Wenn die Annahme der Normalität durch Annahmen der Homoskedastizität und der Unkorreliertheit der Fehler ersetzt wird und man immer noch einen Mittelwert von Null annimmt, dann folgt dem Gauß-Markov-Theorem , dass die Lösung der minimale unverzerrte lineare Schätzer ist .

Siehe auch

Anmerkungen

Verweise

Weiterlesen