In diesem Kurs werden Sie lernen, wie man Probleme mit großen, hochdimensionalen und potentiell unendlichen Zustandsräumen löst. Sie werden sehen, dass die Schätzung von Wertfunktionen als ein Problem des überwachten Lernens - der Funktionsannäherung - betrachtet werden kann, das es Ihnen ermöglicht, Agenten zu entwickeln, die sorgfältig zwischen Generalisierung und Unterscheidung abwägen, um die Belohnung zu maximieren. Wir beginnen diese Reise, indem wir untersuchen, wie unsere Methoden zur Bewertung oder Vorhersage von Richtlinien wie Monte Carlo und TD auf die Funktionsannäherung erweitert werden können. Sie werden Techniken zur Konstruktion von Merkmalen für RL und das Lernen von Repräsentationen über neuronale Netze und Backprop kennenlernen. Wir schließen diesen Kurs mit einem tiefen Einblick in Policy-Gradienten-Methoden ab, eine Möglichkeit, Policies direkt zu lernen, ohne eine Wertfunktion zu lernen. In diesem Kurs werden Sie zwei Steuerungsaufgaben mit kontinuierlichen Zuständen lösen und die Vorteile von Policy-Gradienten-Methoden in einer Umgebung mit kontinuierlichen Aktionen untersuchen.
Voraussetzungen: Dieser Kurs baut stark auf den Grundlagen der Kurse 1 und 2 auf und die Lernenden sollten diese abgeschlossen haben, bevor sie diesen Kurs beginnen. Die Teilnehmer sollten außerdem mit Wahrscheinlichkeiten und Erwartungen, grundlegender linearer Algebra, Grundrechenarten, Python 3.0 (mindestens 1 Jahr) und der Implementierung von Algorithmen aus Pseudocode vertraut sein. Am Ende dieses Kurses werden Sie in der Lage sein:
-Verstehen, wie man Ansätze des überwachten Lernens verwendet, um Wertfunktionen zu approximieren -Verstehen der Ziele für die Vorhersage (Wertschätzung) unter Funktionsapproximation -Implementieren von TD mit Funktionsapproximation (Zustandsaggregation), in einer Umgebung mit einem unendlichen Zustandsraum (kontinuierlicher Zustandsraum) -Verstehen von Ansätzen mit fester Basis und neuronalen Netzen zur Konstruktion von Merkmalen -Umsetzung von TD mit Funktionsapproximation durch neuronale Netze in einer Umgebung mit kontinuierlichen Zuständen -Verstehen neuer Schwierigkeiten bei der Exploration, wenn man zur Funktionsapproximation übergeht -Vergleich von diskontierten Problemformulierungen für die Kontrolle mit einer durchschnittlichen Belohnungsproblemformulierung -Implementierung von Expected Sarsa und Q-Learning mit Funktionsapproximation in einer Kontrollaufgabe mit kontinuierlichem Zustand -Verständnis von Zielen für die direkte Schätzung von Strategien (Policy-Gradient-Ziele) -Implementierung einer Policy-Gradient-Methode (genannt Actor-Critic) in einer Umgebung mit diskretem Zustand