Bestärkendes Lernen
Die Biologie hinter dem Verstärkungslernen finden Sie unter Operante Konditionierung und Belohnung
Reinforcement Learning (RL) bedeutet, einem Software-Agenten beizubringen, wie er sich in einer Umgebung verhalten soll, indem er ihm sagt, wie gut es ihm geht. Es ist ein Bereich des maschinellen Lernens, der von der behavioristischen Psychologie inspiriert ist.
Das Verstärkungslernen unterscheidet sich vom beaufsichtigten Lernen, weil nie die richtigen Inputs und Outputs gezeigt werden. Außerdem lernt das Reinforcement Learning im Gegensatz zum beaufsichtigten Lernen in der Regel nach und nach (Online-Lernen). Das bedeutet, dass ein Agent wählen muss, ob er das, was er am besten weiß, erforscht oder dabei bleibt.
Einführung
Ein Reinforcement Learning System besteht aus einer Richtlinie ( π {\displaystyle \pi } ), einer Belohnungsfunktion ( R {\displaystyle R} ), einer Wertfunktion ( v {\displaystyle v} ) und einem optionalen Modell der Umgebung.
Eine Richtlinie sagt dem Agenten, was er in einer bestimmten Situation zu tun hat. Es kann eine einfache Regeltabelle oder eine komplizierte Suche nach der richtigen Aktion sein. Richtlinien können sogar stochastisch sein, d.h. anstelle von Regeln weist die Richtlinie jeder Aktion Wahrscheinlichkeiten zu. Eine Richtlinie allein kann einen Agenten dazu bringen, Dinge zu tun, aber sie kann nicht von sich aus lernen.
Eine Belohnungsfunktion definiert das Ziel für einen Agenten. Sie nimmt einen Zustand ein (oder einen Zustand und die in diesem Zustand ausgeführte Aktion) und gibt eine Zahl zurück, die Belohnung genannt wird und die dem Agenten sagt, wie gut es ist, in diesem Zustand zu sein. Die Aufgabe des Agenten ist es, auf lange Sicht die größtmögliche Belohnung zu erhalten. Wenn eine Aktion eine geringe Belohnung ergibt, wird der Agent in Zukunft wahrscheinlich eine bessere Aktion durchführen. Die Biologie verwendet Belohnungssignale wie Vergnügen oder Schmerz, um sicherzustellen, dass Organismen am Leben bleiben und sich fortpflanzen können. Belohnungssignale können auch stochastisch sein, wie z.B. ein Spielautomat in einem Kasino, bei dem sie manchmal zahlen und manchmal nicht.
Eine Wertfunktion teilt einem Agenten mit, wie viel Belohnung er nach einer Richtlinie π {\displaystyle \pi } ausgehend von Zustand s {\displaystyle s} erhält. Sie stellt dar, wie wünschenswert es ist, in einem bestimmten Zustand zu sein. Da die Wertfunktion dem Agenten nicht direkt gegeben wird, muss er auf der Grundlage der bisher erhaltenen Belohnung eine gute Schätzung oder Einschätzung abgeben. Die Schätzung der Wertfunktion ist der wichtigste Teil der meisten Reinforcement Learning-Algorithmen.
Ein Modell ist die mentale Kopie des Agenten von der Umwelt. Es wird verwendet, um zukünftige Aktionen zu planen.
Wenn wir dies wissen, können wir über die Hauptschleife für eine Verstärkungs-Lernepisode sprechen. Der Agent interagiert mit der Umgebung in diskreten Zeitschritten. Stellen Sie es sich wie das "Tick-Tack" einer Uhr vor. Bei der diskreten Zeit passieren die Dinge nur während der "Ticks" und der "Tocks", und nicht dazwischen. Zu jedem Zeitpunkt t = 0 , 1 , 2 , 3 , 3 , . . . . {\a6}Anzeigeart t=0,1,2,3,... } beobachtet der Agent den Zustand der Umwelt S t {\displaystyle S_{t}} und wählt eine Aktion A t {\displaystyle A_{t}} basierend auf einer Richtlinie π {\displaystyle \pi } . Im nächsten Zeitschritt erhält der Agent ein Belohnungssignal R t + 1 {\Anzeigestil R_{t+1}}} und eine neue Beobachtung S t + 1 {\Anzeigestil S_{t+1}} . Die Wertfunktion v ( S t ) {\darstellungsstil v(S_{t})} wird unter Verwendung der Belohnung aktualisiert. Dies wird so lange fortgesetzt, bis ein Endzustand S T {\Anzeigestil S_{T}} erreicht ist.