Gauß-Prozess - Gaussian process

In der Wahrscheinlichkeitstheorie und Statistik ist ein Gauß-Prozess ein stochastischer Prozess (eine Sammlung von Zufallsvariablen, die durch Zeit oder Raum indiziert sind), so dass jede endliche Sammlung dieser Zufallsvariablen eine multivariate Normalverteilung hat , dh jede endliche Linearkombination davon ist normalerweise verteilt. Die Verteilung eines Gauß'schen Prozesses ist die gemeinsame Verteilung all dieser (unendlich vielen) Zufallsvariablen und als solche eine Verteilung über Funktionen mit stetigem Bereich, zB Zeit oder Raum.

Das Konzept der Gaußschen Prozesse ist nach Carl Friedrich Gauß benannt, weil es auf dem Begriff der Gaußschen Verteilung ( Normalverteilung ) beruht . Gauß'sche Prozesse können als unendlichdimensionale Verallgemeinerung multivariater Normalverteilungen angesehen werden.

Gauß-Prozesse sind in der statistischen Modellierung nützlich und profitieren von Eigenschaften, die von der Normalverteilung geerbt werden. Wird beispielsweise ein Zufallsprozess als Gaußscher Prozess modelliert, können die Verteilungen verschiedener abgeleiteter Größen explizit ermittelt werden. Solche Größen umfassen den Durchschnittswert des Prozesses über einen bestimmten Zeitraum und den Fehler bei der Schätzung des Durchschnitts unter Verwendung von Stichprobenwerten zu einer kleinen Anzahl von Zeiten. Während exakte Modelle mit zunehmender Datenmenge oft schlecht skalieren, wurden mehrere Näherungsverfahren entwickelt, die oft eine gute Genauigkeit beibehalten und gleichzeitig die Rechenzeit drastisch reduzieren.

Definition

Ein zeitkontinuierlicher stochastischer Prozess ist genau dann Gaußsch, wenn für jede endliche Menge von Indizes in der Indexmenge

ist eine multivariate Gaußsche Zufallsvariable . Das ist dasselbe, als würde man sagen, dass jede Linearkombination von eine univariate Normalverteilung (oder Gaußsche Verteilung) hat.

Unter Verwendung charakteristischer Funktionen von Zufallsvariablen kann die Gaußsche Eigenschaft wie folgt formuliert werden: ist Gaußsch wenn und nur dann, wenn es für jede endliche Menge von Indizes reellwertige gibt , mit so dass die folgende Gleichheit für alle gilt

.

wobei bezeichnet die imaginäre Einheit, so dass .

Die Zahlen und können als Kovarianzen und Mittelwerte der Variablen im Prozess dargestellt werden.

Abweichung

Die Varianz eines Gauß'schen Prozesses ist formal zu jeder Zeit endlich

.

Stationarität

Für allgemeine stochastische Prozesse impliziert strikte Stationarität eine weitläufige Stationarität, aber nicht jeder stationäre stochastische Prozess im weitesten Sinne ist strikt stationär. Für einen Gaußschen stochastischen Prozess sind die beiden Konzepte jedoch äquivalent.

Ein Gaußscher stochastischer Prozess ist genau dann stationär, wenn er im weitesten Sinne stationär ist.

Beispiel

Es gibt eine explizite Darstellung für stationäre Gauß-Prozesse. Ein einfaches Beispiel für diese Darstellung ist

wobei und unabhängige Zufallsvariablen mit der Standardnormalverteilung sind .

Kovarianzfunktionen

Eine wesentliche Tatsache der Gaußschen Prozesse ist, dass sie vollständig durch ihre Statistik zweiter Ordnung definiert werden können. Wenn also angenommen wird, dass ein Gaußscher Prozess den Mittelwert Null hat, definiert die Definition der Kovarianzfunktion das Verhalten des Prozesses vollständig. Wichtig ist, dass die nicht-negative Bestimmtheit dieser Funktion ihre spektrale Zerlegung unter Verwendung der Karhunen-Loève-Entwicklung ermöglicht . Grundlegende Aspekte, die durch die Kovarianzfunktion definiert werden können, sind die Stationarität , Isotropie , Glätte und Periodizität des Prozesses .

Stationarität bezieht sich auf das Verhalten des Prozesses bezüglich der Trennung von zwei beliebigen Punkten und . Ist der Prozess stationär, hängt er von deren Abstand, , während er instationär von der tatsächlichen Position der Punkte und ab . Zum Beispiel ist der Spezialfall eines Ornstein-Uhlenbeck-Prozesses , eines Brownschen Bewegungsprozesses , stationär.

Wenn der Prozess nur von , dem euklidischen Abstand (nicht von der Richtung) zwischen und abhängt , gilt der Prozess als isotrop. Ein gleichzeitig stationärer und isotroper Prozess gilt als homogen ; in der Praxis spiegeln diese Eigenschaften die Unterschiede (oder vielmehr deren Fehlen) im Verhalten des Prozesses am Standort des Beobachters wider.

Letztendlich übersetzen Gauß-Prozesse als Nehmen von Prioren für Funktionen und die Glätte dieser Prioren kann durch die Kovarianzfunktion induziert werden. Wenn wir erwarten, dass dies für "nahe" Eingangspunkte und ihre entsprechenden Ausgangspunkte und auch "in der Nähe" ist, dann liegt die Annahme der Stetigkeit vor. Wenn wir eine signifikante Verschiebung zulassen möchten, können wir eine gröbere Kovarianzfunktion wählen. Extreme Beispiele für das Verhalten sind die Ornstein-Uhlenbeck-Kovarianzfunktion und die quadrierte Exponentialfunktion, wobei erstere nie differenzierbar und letztere unendlich differenzierbar ist.

Periodizität bezieht sich auf das Induzieren periodischer Muster innerhalb des Verhaltens des Prozesses. Formal wird dies erreicht, indem die Eingabe auf einen zweidimensionalen Vektor abgebildet wird .

Übliche Kovarianzfunktionen

Die Auswirkung der Wahl verschiedener Kernel auf die Prior-Funktionsverteilung des Gauß'schen Prozesses. Links ist ein quadrierter Exponentialkern. Mitte ist Brownian. Rechts ist quadratisch.

Es gibt eine Reihe gängiger Kovarianzfunktionen:

  • Konstante:
  • Linear:
  • weißes Gaußsches Rauschen:
  • Quadratische Exponentialfunktion:
  • Ornstein–Uhlenbeck:
  • Matérn:
  • Periodisch:
  • Rational quadratisch:

Hier . Der Parameter ist die charakteristische Längenskala des Prozesses (praktisch, "wie nahe" zwei Punkte und müssen sich gegenseitig signifikant beeinflussen), ist das Kronecker-Delta und die Standardabweichung der Rauschschwankungen. Darüber hinaus ist die modifizierte Bessel-Funktion der Ordnung und ist die Gamma-Funktion ausgewertet bei . Wichtig ist, dass eine komplizierte Kovarianzfunktion als eine lineare Kombination anderer einfacherer Kovarianzfunktionen definiert werden kann, um unterschiedliche Erkenntnisse über den vorliegenden Datensatz zu berücksichtigen.

Die Inferenzergebnisse hängen eindeutig von den Werten der Hyperparameter (zB und ) ab, die das Verhalten des Modells definieren. Eine beliebte Wahl dafür ist die Bereitstellung maximaler a posteriori (MAP)-Schätzungen davon mit einigen zuvor ausgewählten. Wenn der Prior nahezu gleichförmig ist, entspricht dies der Maximierung der Grenzwahrscheinlichkeit des Prozesses; die Marginalisierung erfolgt über die beobachteten Prozesswerte . Dieser Ansatz wird auch als Maximum Likelihood II , Evidenzmaximierung oder empirisches Bayes bezeichnet .

Kontinuität

Bei einem Gauß-Prozess ist die Kontinuität der Wahrscheinlichkeit äquivalent zur Mean-Square-Kontinuität , und die Kontinuität mit der Wahrscheinlichkeit eins ist äquivalent zur Stichprobenkontinuität . Letzteres impliziert, wird aber nicht durch Kontinuität in der Wahrscheinlichkeit impliziert. Stetigkeit in der Wahrscheinlichkeit gilt genau dann, wenn Mittelwert und Autokovarianz stetige Funktionen sind. Im Gegensatz dazu war die Stichprobenkontinuität selbst für stationäre Gauß-Prozesse eine Herausforderung (wie wahrscheinlich zuerst von Andrey Kolmogorov bemerkt wurde ) und für allgemeinere Prozesse eine größere Herausforderung. Wie üblich, durch eine Probe einer kontinuierlichen Verfahren bedeutet ein Verfahren , das eine kontinuierliche Probe zugibt Modifikation .

Stationäres Gehäuse

Für einen stationären Gauß-Prozess sind einige Bedingungen in seinem Spektrum für die Probenkontinuität ausreichend, aber nicht notwendig. Eine notwendige und hinreichende Bedingung, manchmal auch Dudley-Fernique-Theorem genannt, beinhaltet die Funktion definiert durch

(die rechte Seite ist wegen der Stationarität nicht abhängig ). Die Stetigkeit der Wahrscheinlichkeit entspricht der Stetigkeit von at Wenn die Konvergenz von zu (as ) zu langsam ist, kann die Stichprobenkontinuität von fehlschlagen. Die Konvergenz der folgenden Integrale ist wichtig:

diese beiden Integrale sind gemäß Integration durch Substitution gleich Der erste Integrand muss nicht beschränkt sein, da das Integral konvergieren ( ) oder divergieren kann ( ). Nimmt man zum Beispiel für groß, d. h. für klein , erhält man wann und wann In diesen beiden Fällen nimmt die Funktion zu, aber im Allgemeinen nicht. Außerdem ist die Bedingung

  es existiert ein solches, das monoton ist auf

folgt nicht aus der Kontinuität von und den offensichtlichen Beziehungen (für alle ) und

Satz 1.   Sei stetig und erfülle Dann ist die Bedingung notwendig und hinreichend für die Stichprobenstetigkeit von

Einige Geschichten. Die Angemessenheit wurde 1964 von Xavier Fernique verkündet , aber der erste Beweis wurde 1967 von Richard M. Dudley veröffentlicht. Die Notwendigkeit wurde 1970 von Michael B. Marcus und Lawrence Shepp bewiesen .

Es gibt kontinuierliche Stichprobenprozesse , die die Bedingung verletzen. Ein von Marcus und Shepp gefundenes Beispiel ist eine zufällige lakunäre Fourier-Reihe

wo sind unabhängige Zufallsvariablen mit Standardnormalverteilung ; Frequenzen sind eine schnell wachsende Sequenz; und Koeffizienten erfüllen Die letztgenannte Beziehung impliziert, woher fast sicher ist, was fast sicher eine gleichmäßige Konvergenz der Fourier-Reihe sicherstellt, und die Stichprobenkontinuität von

Autokorrelation einer zufälligen lakunären Fourier-Reihe

Seine Autokovariationsfunktion

ist nirgendwo eintönig (siehe Bild), sowie die entsprechende Funktion

Brownsche Bewegung als Integral der Gaußschen Prozesse

Ein Wiener-Prozess (auch bekannt als Brownsche Bewegung) ist das Integral eines verallgemeinerten Gauß-Prozesses mit weißem Rauschen . Es ist nicht stationär , hat aber stationäre Inkremente.

Der Ornstein-Uhlenbeck-Prozess ist ein stationärer Gauß-Prozess.

Die Brownsche Brücke ist (wie der Ornstein-Uhlenbeck-Prozess) ein Beispiel für einen Gauß-Prozess, dessen Inkremente nicht unabhängig sind .

Die fraktionierte Brownsche Bewegung ist ein Gaußscher Prozess, dessen Kovarianzfunktion eine Verallgemeinerung des Wiener Prozesses ist.

Driscolls Null-Eins-Gesetz

Das Null-Eins-Gesetz von Driscoll ist ein Ergebnis, das die durch einen Gauß-Prozess erzeugten Abtastfunktionen charakterisiert.

Sei ein Gauß-Prozess mit mittlerer Null und nicht-negativer definitiver Kovarianzfunktion . Sei ein reproduzierender Kernel-Hilbert-Raum mit positiv definitem Kern .

Dann

,

wo und sind die Kovarianzmatrizen aller möglichen Punktpaare , impliziert

.

Was ist mehr,

impliziert

.

Dies hat erhebliche Auswirkungen, wenn , wie

.

Als solche liegen fast alle Abtastpfade eines Gauß'schen Prozesses mit mittlerem Nullpunkt und positiv-definitem Kern außerhalb des Hilbert-Raums .

Linear beschränkte Gauß'sche Prozesse

Für viele interessante Anwendungen sind bereits Vorkenntnisse über das vorliegende System vorhanden. Betrachten wir zB den Fall, wo die Ausgabe des Gauß'schen Prozesses einem Magnetfeld entspricht; hier ist das reale Magnetfeld durch die Maxwell-Gleichungen gebunden und eine Möglichkeit, diese Einschränkung in den Gauß'schen Prozessformalismus zu integrieren, wäre wünschenswert, da dies wahrscheinlich die Genauigkeit des Algorithmus verbessern würde.

Es gibt bereits eine Methode, um lineare Nebenbedingungen in Gauß-Prozesse zu integrieren:

Betrachten Sie die (vektorwertige) Ausgabefunktion, von der bekannt ist, dass sie der linearen Einschränkung gehorcht (dh ein linearer Operator ist).

Dann kann die Bedingung erfüllt werden, indem man , wobei als Gauß-Prozess modelliert wird, wählt und st . findet

Gegeben und unter Verwendung der Tatsache, dass Gauß-Prozesse unter linearen Transformationen abgeschlossen sind, wird der Gauß-Prozess zur Befolgung der Beschränkung zu

Daher können lineare Beschränkungen in die Mittelwert- und Kovarianzfunktion eines Gauß'schen Prozesses codiert werden.

Anwendungen

Ein Beispiel für die Gaußsche Prozessregression (Vorhersage) im Vergleich zu anderen Regressionsmodellen.

Ein Gauss-Prozess kann als eine A- priori-Wahrscheinlichkeitsverteilung über Funktionen in der Bayes-Inferenz verwendet werden . Gegeben jede Menge von N Punkten in der gewünschten Domäne Ihrer Funktionen nehmen eine multivariate Gaussian deren Kovarianz - Matrix Parameter ist die Gram - Matrix des N Punkte mit einem gewünschten kernel und Probe von dem Gaussian. Zur Lösung des Multi-Output-Prädiktionsproblems wurde die Gaußsche Prozessregression für vektorwertige Funktionen entwickelt. Bei dieser Methode wird eine „große“ Kovarianz konstruiert, die die Korrelationen zwischen allen Eingangs- und Ausgangsvariablen in N Punkten im gewünschten Bereich beschreibt. Dieser Ansatz wurde für die matrixbewerteten Gauß-Prozesse im Detail ausgearbeitet und auf Prozesse mit "schwereren Schwänzen" wie Student-t-Prozesse verallgemeinert .

Die Inferenz kontinuierlicher Werte mit einem Gauß-Prozess-Prior ist als Gauß-Prozess-Regression oder Kriging bekannt ; Die Erweiterung der Gauß'schen Prozessregression auf mehrere Zielvariablen wird als Cokriging bezeichnet . Gauss-Prozesse sind daher als leistungsstarkes nichtlineares multivariates Interpolationswerkzeug nützlich .

Gauss'sche Prozesse können beispielsweise auch im Rahmen von Mixed-of-Experts-Modellen verwendet werden. Das zugrunde liegende Grundprinzip eines solchen Lernrahmens besteht in der Annahme, dass eine gegebene Abbildung nicht gut durch ein einzelnes Gaußsches Prozessmodell erfasst werden kann. Stattdessen wird der Beobachtungsraum in Teilmengen unterteilt, von denen jede durch eine andere Abbildungsfunktion gekennzeichnet ist; jede davon wird über eine andere Gaußsche Prozesskomponente in der postulierten Mischung gelernt.

Gaußsche Prozessvorhersage oder Kriging

Gaußsche Prozessregression (Vorhersage) mit einem quadrierten exponentiellen Kernel. Das linke Diagramm sind Zeichnungen aus der vorherigen Funktionsverteilung. Mitte sind Züge von hinten. Rechts ist die mittlere Vorhersage mit einer schattierten Standardabweichung.

Bei einem allgemeinen Regressionsproblem des Gauß-Prozesses (Kriging) wird angenommen, dass für einen an den Koordinaten beobachteten Gauß-Prozess der Wertevektor nur eine Stichprobe aus einer multivariaten Gauß-Verteilung der Dimension gleich der Anzahl der beobachteten Koordinaten ist . Daher, unter der Annahme einer Null-Mittelwertverteilung, , wo ist die Kovarianzmatrix zwischen allen möglichen Paaren für einen gegebenen Satz von Hyperparametern θ . Als solche ist die logarithmische Grenzwahrscheinlichkeit:

und das Maximieren dieser marginalen Wahrscheinlichkeit in Richtung θ liefert die vollständige Spezifikation des Gauß'schen Prozesses f . An dieser Stelle sei kurz angemerkt, dass der erste Term einem Strafterm für die Nichtanpassung beobachteter Werte eines Modells und der zweite Term einem proportional zur Komplexität des Modells ansteigenden Strafterm entspricht. Nachdem θ angegeben wurde, müssen Vorhersagen über unbeobachtete Werte an den Koordinaten x * nur noch durch das Ziehen von Stichproben aus der prädiktiven Verteilung gemacht werden, wobei die hintere Mittelwertschätzung A definiert ist als

und die Posterior-Varianz-Schätzung B ist definiert als:

wo die Kovarianz zwischen den neuen Schätz Koordinate x * und alle anderen beobachteten Koordinaten x für einen bestimmten Hypervektor θ , und wie zuvor definiert sind und die Varianz am Punkt x * , wie durch diktierte θ . Es ist wichtig anzumerken, dass die hintere Mittelwertschätzung (die "Punktschätzung") praktisch nur eine lineare Kombination der Beobachtungen ist ; in ähnlicher Weise ist die Varianz von tatsächlich unabhängig von den Beobachtungen . Ein bekannter Engpass bei der Vorhersage von Gauß-Prozessen besteht darin, dass die Berechnungskomplexität der Inferenz- und Likelihood-Bewertung kubisch in der Anzahl der Punkte | . ist x | und kann daher bei größeren Datensätzen nicht mehr durchführbar sein. Arbeiten zu spärlichen Gaußschen Prozessen, die normalerweise auf der Idee basieren, eine repräsentative Menge für den gegebenen Prozess f zu bilden , versuchen dieses Problem zu umgehen. Die Kriging- Methode kann auf der latenten Ebene eines nichtlinearen Mixed-Effects-Modells für eine räumlich-funktionale Vorhersage verwendet werden: Diese Technik wird als latentes Kriging bezeichnet.

Bayes'sche neuronale Netze als Gauß'sche Prozesse

Bayes'sche neuronale Netze sind eine besondere Art von Bayes'schen Netzen , die sich aus der probabilistischen Behandlung von Deep-Learning- und künstlichen neuronalen Netzmodellen ergeben und ihren Parametern eine vorherige Verteilung zuweisen . Die Berechnung in künstlichen neuronalen Netzen ist normalerweise in sequentielle Schichten künstlicher Neuronen organisiert . Die Anzahl der Neuronen in einer Schicht wird als Schichtbreite bezeichnet. Wenn die Schichtbreite groß wird, reduzieren sich viele Bayes'sche neuronale Netze auf einen Gauß'schen Prozess mit einem geschlossenen Kompositionskern. Dieser Gauss-Prozess wird als Neural Network Gaussian Process (NNGP) bezeichnet. Es ermöglicht eine effizientere Auswertung von Vorhersagen aus Bayes'schen neuronalen Netzen und bietet ein Analysewerkzeug zum Verständnis von Deep-Learning- Modellen.

Rechenprobleme

In praktischen Anwendungen werden Gaußsche Prozessmodelle oft auf einem Gitter ausgewertet, was zu multivariaten Normalverteilungen führt. Die Verwendung dieser Modelle zur Vorhersage oder Parameterschätzung unter Verwendung der maximalen Wahrscheinlichkeit erfordert die Auswertung einer multivariaten Gaußschen Dichte, die die Berechnung der Determinante und der Inversen der Kovarianzmatrix beinhaltet. Beide Operationen haben eine kubische Rechenkomplexität, was bedeutet, dass selbst bei Gittern mit bescheidenen Größen beide Operationen einen unerschwinglichen Rechenaufwand haben können. Dieser Nachteil führte zur Entwicklung von multiplen Näherungsverfahren .

Siehe auch

Verweise

Externe Links

Software

Videoanleitungen