Staat–Aktion–Belohnung–Staat–Aktion - State–action–reward–state–action

State-Action-Reward-State-Action ( SARSA ) ist ein Algorithmus zum Erlernen einer Markov-Entscheidungsprozessrichtlinie , der im Bereich des Reinforcement Learning des maschinellen Lernens verwendet wird . Es wurde von Rummery und Niranjan in einer technischen Notiz mit dem Namen "Modified Connectionist Q-Learning" (MCQ-L) vorgeschlagen. Der von Rich Sutton vorgeschlagene Alternativname SARSA wurde nur als Fußnote erwähnt.

Dieser Name spiegelt einfach die Tatsache wider, dass die Hauptfunktion zum Aktualisieren des Q-Wertes vom aktuellen Zustand des Agenten " S ₁ " abhängt , der Aktion, die der Agent auswählt " A ₁ ", der Belohnung " R ", die der Agent für diese Auswahl erhält Aktion, der Zustand „ S ₂ “ , dass der Agent tritt nach , dass Maßnahmen zu ergreifen, und schließlich wird die nächste Aktion „ A ₂ “ der Agent entscheidet sich in seinem neuen Zustand. Das Akronym für das Quintupel (s _t , a _t , r _t , s _t+1 , a _t+1 ) ist SARSA. Einige Autoren verwenden eine etwas andere Konvention und schreiben das Quintupel (s _t , a _t , r _t+1 , s _t+1 , a _t+1 ), je nachdem, welchem Zeitschritt die Belohnung formal zugeordnet wird. Der Rest des Artikels verwendet die frühere Konvention.

Algorithmus

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha\,[r_{t}+\gamma\,Q(s_{t+ .) 1},a_{t+1})-Q(s_{t},a_{t})]

Ein SARSA-Agent interagiert mit der Umgebung und aktualisiert die Richtlinie basierend auf den durchgeführten Aktionen, daher wird dies als richtlinienkonformer Lernalgorithmus bezeichnet . Der Q-Wert für eine Zustandsaktion wird durch einen Fehler aktualisiert, angepasst um die Lernrate alpha. Q-Werte stellen die mögliche Belohnung dar, die im nächsten Zeitschritt für die Durchführung einer Aktion a im Zustand s erhalten wird , plus die diskontierte zukünftige Belohnung, die aus der nächsten Zustands-Aktions-Beobachtung erhalten wird.

Watkins Q-Learning aktualisiert eine Schätzung der optimalen Zustands-Aktionswert-Funktion basierend auf der maximalen Belohnung der verfügbaren Aktionen. Während SARSA die Q-Werte lernt, die mit der Umsetzung der Richtlinie verbunden sind, die es selbst befolgt, lernt das Q-Learning von Watkin die Q-Werte, die mit der Umsetzung der optimalen Richtlinie verbunden sind, während es einer Explorations-/Ausbeutungsrichtlinie folgt . $Q^{*}$

Einige Optimierungen von Watkins Q-Learning können auf SARSA angewendet werden.

Hyperparameter

Lernrate (Alpha)

Die Lernrate bestimmt, inwieweit neu erworbene Informationen alte Informationen überschreiben. Ein Faktor von 0 bewirkt, dass der Agent nichts lernt, während ein Faktor von 1 dazu führt, dass der Agent nur die neuesten Informationen berücksichtigt.

Abzinsungsfaktor (Gamma)

Der Diskontfaktor bestimmt die Bedeutung zukünftiger Prämien. Ein Diskontierungsfaktor von 0 macht den Agenten "opportunistisch" oder "kurzsichtig", indem er beispielsweise nur aktuelle Belohnungen berücksichtigt, während ein Faktor nahe 1 ihn nach einer langfristig hohen Belohnung streben lässt. Wenn der Abzinsungsfaktor 1 erreicht oder überschreitet, können die Werte abweichen. $Q$

Anfangsbedingungen ( $Q (s 0, a 0)$ )

Da SARSA ein iterativer Algorithmus ist, geht er implizit von einer Anfangsbedingung aus, bevor die erste Aktualisierung erfolgt. Ein niedriger (unendlicher) Anfangswert, auch als "optimistische Anfangsbedingungen" bekannt, kann die Erkundung fördern: Egal welche Aktion stattfindet, die Aktualisierungsregel bewirkt, dass er höhere Werte als die andere Alternative hat, wodurch ihre Wahlwahrscheinlichkeit erhöht wird. Im Jahr 2013 wurde vorgeschlagen, dass die erste Belohnung $r verwendet werden$ könnte, um die Anfangsbedingungen zurückzusetzen. Nach dieser Idee wird die Belohnung beim ersten Ausführen einer Aktion verwendet, um den Wert von $Q festzulegen$ . Dies ermöglicht sofortiges Lernen bei festen deterministischen Belohnungen. Dieser Ansatz des Zurücksetzens der Anfangsbedingungen (RIC) scheint mit dem menschlichen Verhalten in wiederholten Binärauswahl-Experimenten konsistent zu sein.

Languages

In other projects

Staat–Aktion–Belohnung–Staat–Aktion - State–action–reward–state–action

Inhalt

Algorithmus

Hyperparameter

Lernrate (Alpha)

Abzinsungsfaktor (Gamma)

Anfangsbedingungen ( $Q (s 0, a 0)$ )

Verweise

Languages

In other projects

Staat–Aktion–Belohnung–Staat–Aktion - State–action–reward–state–action

Algorithmus

Hyperparameter

Lernrate (Alpha)

Abzinsungsfaktor (Gamma)

Anfangsbedingungen ( Q ( s 0 , a 0 ) )

Verweise

Anfangsbedingungen ( $Q (s 0, a 0)$ )