Zeitunterschied lernen - Temporal difference learning

Zeitdifferenz- Lernen ( TD ) bezieht sich auf eine Klasse von modellfreien Verstärkungslernverfahren , die durch Bootstrapping aus der aktuellen Schätzung der Wertfunktion lernen . Diese Methoden sampeln aus der Umgebung, wie Monte-Carlo-Methoden , und führen Aktualisierungen basierend auf aktuellen Schätzungen durch, wie dynamische Programmiermethoden .

Während Monte-Carlo-Methoden ihre Schätzungen erst anpassen, wenn das Endergebnis bekannt ist, passen TD-Methoden Vorhersagen an spätere, genauere Vorhersagen über die Zukunft an, bevor das Endergebnis bekannt ist. Dies ist eine Form des Bootstrappings , wie im folgenden Beispiel veranschaulicht:

„Angenommen, Sie möchten das Wetter für Samstag vorhersagen und haben ein Modell, das das Wetter für Samstag unter Berücksichtigung des Wetters jedes Tages in der Woche vorhersagt. Im Standardfall würden Sie bis Samstag warten und dann alle Ihre Modelle anpassen. Wenn es zum Beispiel Freitag ist, sollte man eine ziemlich gute Vorstellung davon haben, wie das Wetter am Samstag sein wird – und so zum Beispiel das Samstagsmodell ändern können, bevor der Samstag kommt."

Zeitdifferenzverfahren beziehen sich auf das Zeitdifferenzmodell des tierischen Lernens.

Mathematische Formulierung

Die tabellarische TD(0)-Methode ist eine der einfachsten TD-Methoden. Es handelt sich um einen Spezialfall allgemeinerer stochastischer Näherungsverfahren. Es schätzt die Zustandswertfunktion eines endlichen Markov-Entscheidungsprozesses (MDP) unter einer Richtlinie . Lassen Sie bezeichnen den Zustandswert in Abhängigkeit von der MDP mit Staaten , Belohnungen und Diskontsatz im Rahmen der Politik :

Der Einfachheit halber lassen wir die Aktion aus der Notation. erfüllt die Hamilton-Jacobi-Bellman-Gleichung :

so ist eine unverzerrte Schätzung für . Diese Beobachtung motiviert den folgenden Algorithmus zum Schätzen .

Der Algorithmus beginnt mit der willkürlichen Initialisierung einer Tabelle mit einem Wert für jeden Zustand des MDP. Es wird eine positive Lernrate gewählt.

Anschließend werten wir die Richtlinie wiederholt aus , erhalten eine Belohnung und aktualisieren die Wertfunktion für den alten Zustand mit der Regel:

wo und sind die alten bzw. neuen Zustände. Der Wert wird als TD-Ziel bezeichnet.

TD-Lambda

TD-Lambda ist ein Lernalgorithmus, der von Richard S. Sutton erfunden wurde, basierend auf früheren Arbeiten zum zeitlichen Differenzlernen von Arthur Samuel . Dieser Algorithmus wurde bekanntermaßen von Gerald Tesauro angewendet , um TD-Gammon zu entwickeln , ein Programm, das gelernt hat, Backgammon auf dem Niveau von erfahrenen menschlichen Spielern zu spielen.

Der Parameter Lambda ( ) bezieht sich auf den Trace Decay Parameter, mit . Höhere Einstellungen führen zu länger anhaltenden Spuren; das heißt, ein größerer Teil des Kredits aus einer Belohnung kann entfernteren Zuständen und Aktionen gegeben werden, wenn er höher ist, wobei paralleles Lernen zu Monte-Carlo-RL-Algorithmen erzeugt wird.

TD-Algorithmus in den Neurowissenschaften

Auch im Bereich der Neurowissenschaften hat der TD- Algorithmus Beachtung gefunden . Die Forscher entdeckten, dass die Feuerrate von Dopamin- Neuronen im ventralen Tegmentalbereich (VTA) und der Substantia nigra (SNc) die Fehlerfunktion des Algorithmus zu imitieren scheint. Die Fehlerfunktion meldet die Differenz zwischen der geschätzten Belohnung in einem bestimmten Zustand oder Zeitschritt und der tatsächlich erhaltenen Belohnung zurück. Je größer die Fehlerfunktion, desto größer die Differenz zwischen erwarteter und tatsächlicher Belohnung. Wenn dies mit einem Stimulus kombiniert wird, der eine zukünftige Belohnung genau widerspiegelt, kann der Fehler verwendet werden, um den Stimulus mit der zukünftigen Belohnung zu assoziieren .

Dopaminzellen scheinen sich ähnlich zu verhalten. In einem Experiment wurden Messungen von Dopaminzellen durchgeführt, während ein Affe trainiert wurde, einen Reiz mit der Belohnung von Saft zu assoziieren. Anfänglich erhöhten die Dopaminzellen die Feuerrate, wenn der Affe Saft erhielt, was auf einen Unterschied zwischen erwarteten und tatsächlichen Belohnungen hinweist. Im Laufe der Zeit breitete sich diese Zunahme des Zurückschießens zum frühesten zuverlässigen Anreiz für die Belohnung aus. Sobald der Affe vollständig trainiert war, gab es bei Präsentation der vorhergesagten Belohnung keine Erhöhung der Feuerrate. Anschließend sank die Feuerrate für die Dopaminzellen unter die normale Aktivierung, wenn die erwartete Belohnung nicht produziert wurde. Dies ahmt genau nach, wie die Fehlerfunktion in TD für das Reinforcement Learning verwendet wird .

Die Beziehung zwischen dem Modell und der potentiellen neurologischen Funktion hat Forschungen hervorgebracht, die versuchen, TD zu verwenden, um viele Aspekte der Verhaltensforschung zu erklären. Es wurde auch verwendet, um Zustände wie Schizophrenie oder die Folgen pharmakologischer Manipulationen von Dopamin auf das Lernen zu untersuchen.

Siehe auch

Anmerkungen

  1. ^ a b Richard Sutton & Andrew Barto (1998). Verstärkungslernen . MIT-Presse. ISBN 978-0-585-02445-5. Archiviert vom Original am 30.03.2017.
  2. ^ a b Richard Sutton (1988). "Lernen, durch die Methoden der zeitlichen Unterschiede vorherzusagen" . Maschinelles Lernen . 3 (1): 9–44. doi : 10.1007/BF00115009 .(Eine überarbeitete Version ist auf Richard Suttons Publikationsseite Archived 2017-03-30 at the Wayback Machine verfügbar )
  3. ^ a b Schultz, W, Dayan, P & Montague, PR. (1997). „Ein neuronales Substrat der Vorhersage und Belohnung“. Wissenschaft . 275 (5306): 1593–1599. CiteSeerX  10.1.1.133.6176 . doi : 10.1126/science.275.5306.1593 . PMID  9054347 .CS1-Wartung: mehrere Namen: Autorenliste ( Link )
  4. ^ a b Montague, PR; Dayan, P.; Sejnowski, TJ (1996-03-01). „Ein Rahmen für mesenzephale Dopaminsysteme basierend auf prädiktivem hebbianischem Lernen“ (PDF) . Die Zeitschrift für Neurowissenschaften . 16 (5): 1936–1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN  0270-6474 . PMC  6578666 . PMID  8774460 .
  5. ^ a b Montague, PR; Dayan, P.; Nowlan, SJ; Pouget, A.; Sejnowski, TJ (1993). "Aperiodische Verstärkung zur gezielten Selbstorganisation nutzen" (PDF) . Fortschritte in neuronalen Informationsverarbeitungssystemen . 5 : 969–976.
  6. ^ a b Montague, PR; Sejnowski, TJ (1994). „Das prädiktive Gehirn: zeitlicher Zufall und zeitliche Ordnung in synaptischen Lernmechanismen“. Lernen & Gedächtnis . 1 (1): 1–33. ISSN  1072-0502 . PMID  10467583 .
  7. ^ a b Sejnowski, TJ; Dayan, P.; Montague, PR (1995). "Prädiktives hebbisches Lernen" (PDF) . Proceedings of Eighth ACM Conference on Computational Learning Theory : 15–18. doi : 10.1145/225298.225300 . ISBN 0897917235.
  8. ^ Der Parameter für den Rabattsatz ermöglicht eine Zeitpräferenz für sofortigere Belohnungen und weg von Belohnungen in der Ferne
  9. ^ Verstärkungslernen: Eine Einführung (PDF) . s. 130. Archiviert vom Original (PDF) am 12.07.2017.
  10. ^ Tesauro, Gerald (März 1995). "Zeitdifferenz-Lernen und TD-Gammon" . Mitteilungen des ACM . 38 (3): 58–68. doi : 10.1145/203330.203343 . Abgerufen 2010-02-08 .
  11. ^ Schultz, W. (1998). „Prädiktive Belohnungssignal von Dopamin-Neuronen“. Zeitschrift für Neurophysiologie . 80 (1): 1–27. CiteSeerX  10.1.1.408.5994 . doi : 10.1152/jn.1998.80.1.1 . PMID  9658025 .
  12. ^ Dayan, S. (2001). "Motiviertes Reinforcement Learning" (PDF) . Fortschritte in neuronalen Informationsverarbeitungssystemen . MIT-Presse. 14 : 11–18.
  13. ^ Smith, A., Li, M., Becker, S. und Kapur, S. (2006). „Dopamin, Vorhersagefehler und assoziatives Lernen: ein modellbasiertes Konto“. Netzwerk: Berechnung in neuronalen Systemen . 17 (1): 61–84. doi : 10.1080/09548980500361624 . PMID  16613795 .CS1-Wartung: mehrere Namen: Autorenliste ( Link )

Literaturverzeichnis

Externe Links