Staat–Aktion–Belohnung–Staat–Aktion - State–action–reward–state–action

State-Action-Reward-State-Action ( SARSA ) ist ein Algorithmus zum Erlernen einer Markov-Entscheidungsprozessrichtlinie , der im Bereich des Reinforcement Learning des maschinellen Lernens verwendet wird . Es wurde von Rummery und Niranjan in einer technischen Notiz mit dem Namen "Modified Connectionist Q-Learning" (MCQ-L) vorgeschlagen. Der von Rich Sutton vorgeschlagene Alternativname SARSA wurde nur als Fußnote erwähnt.

Dieser Name spiegelt einfach die Tatsache wider, dass die Hauptfunktion zum Aktualisieren des Q-Wertes vom aktuellen Zustand des Agenten " S 1 " abhängt , der Aktion, die der Agent auswählt " A 1 ", der Belohnung " R ", die der Agent für diese Auswahl erhält Aktion, der Zustand „ S 2 “ , dass der Agent tritt nach , dass Maßnahmen zu ergreifen, und schließlich wird die nächste Aktion „ A 2 “ der Agent entscheidet sich in seinem neuen Zustand. Das Akronym für das Quintupel (s t , a t , r t , s t+1 , a t+1 ) ist SARSA. Einige Autoren verwenden eine etwas andere Konvention und schreiben das Quintupel (s t , a t , r t+1 , s t+1 , a t+1 ), je nachdem, welchem ​​Zeitschritt die Belohnung formal zugeordnet wird. Der Rest des Artikels verwendet die frühere Konvention.

Algorithmus

Ein SARSA-Agent interagiert mit der Umgebung und aktualisiert die Richtlinie basierend auf den durchgeführten Aktionen, daher wird dies als richtlinienkonformer Lernalgorithmus bezeichnet . Der Q-Wert für eine Zustandsaktion wird durch einen Fehler aktualisiert, angepasst um die Lernrate alpha. Q-Werte stellen die mögliche Belohnung dar, die im nächsten Zeitschritt für die Durchführung einer Aktion a im Zustand s erhalten wird , plus die diskontierte zukünftige Belohnung, die aus der nächsten Zustands-Aktions-Beobachtung erhalten wird.

Watkins Q-Learning aktualisiert eine Schätzung der optimalen Zustands-Aktionswert-Funktion basierend auf der maximalen Belohnung der verfügbaren Aktionen. Während SARSA die Q-Werte lernt, die mit der Umsetzung der Richtlinie verbunden sind, die es selbst befolgt, lernt das Q-Learning von Watkin die Q-Werte, die mit der Umsetzung der optimalen Richtlinie verbunden sind, während es einer Explorations-/Ausbeutungsrichtlinie folgt .

Einige Optimierungen von Watkins Q-Learning können auf SARSA angewendet werden.

Hyperparameter

Lernrate (Alpha)

Die Lernrate bestimmt, inwieweit neu erworbene Informationen alte Informationen überschreiben. Ein Faktor von 0 bewirkt, dass der Agent nichts lernt, während ein Faktor von 1 dazu führt, dass der Agent nur die neuesten Informationen berücksichtigt.

Abzinsungsfaktor (Gamma)

Der Diskontfaktor bestimmt die Bedeutung zukünftiger Prämien. Ein Diskontierungsfaktor von 0 macht den Agenten "opportunistisch" oder "kurzsichtig", indem er beispielsweise nur aktuelle Belohnungen berücksichtigt, während ein Faktor nahe 1 ihn nach einer langfristig hohen Belohnung streben lässt. Wenn der Abzinsungsfaktor 1 erreicht oder überschreitet, können die Werte abweichen.

Anfangsbedingungen ( Q ( s 0 , a 0 ) )

Da SARSA ein iterativer Algorithmus ist, geht er implizit von einer Anfangsbedingung aus, bevor die erste Aktualisierung erfolgt. Ein niedriger (unendlicher) Anfangswert, auch als "optimistische Anfangsbedingungen" bekannt, kann die Erkundung fördern: Egal welche Aktion stattfindet, die Aktualisierungsregel bewirkt, dass er höhere Werte als die andere Alternative hat, wodurch ihre Wahlwahrscheinlichkeit erhöht wird. Im Jahr 2013 wurde vorgeschlagen, dass die erste Belohnung r verwendet werden könnte, um die Anfangsbedingungen zurückzusetzen. Nach dieser Idee wird die Belohnung beim ersten Ausführen einer Aktion verwendet, um den Wert von Q festzulegen . Dies ermöglicht sofortiges Lernen bei festen deterministischen Belohnungen. Dieser Ansatz des Zurücksetzens der Anfangsbedingungen (RIC) scheint mit dem menschlichen Verhalten in wiederholten Binärauswahl-Experimenten konsistent zu sein.

Verweise