Spezialisierung für Reinforcement Learning

Entdecken Sie neue Fähigkeiten mit 30% Rabatt auf Kurse von Branchenexperten. Jetzt sparen.

Spezialisierung für Reinforcement Learning

Beherrschen Sie die Konzepte des Reinforcement Learning. Implementieren Sie eine komplette RL-Lösung und verstehen Sie, wie Sie KI-Tools zur Lösung realer Probleme einsetzen können.

Dozenten: Adam White

60.452 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

4-teilige Kursreihe

Befassen Sie sich eingehend mit einem Thema

4.8

(3,353 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

2 Monate bei 10 Stunden pro Woche

Flexibler Zeitplan

Verdienen Sie sich einen beruflichen Leistungsnachweis

Teilen Sie Ihr Fachwissen mit Arbeitgebern

4-teilige Kursreihe

Befassen Sie sich eingehend mit einem Thema

4.8

(3,353 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

2 Monate bei 10 Stunden pro Woche

Flexibler Zeitplan

Verdienen Sie sich einen beruflichen Leistungsnachweis

Teilen Sie Ihr Fachwissen mit Arbeitgebern

Was Sie lernen werden

Erstellen Sie ein Reinforcement Learning System für sequentielle Entscheidungsfindung.
Verstehen Sie den Raum der RL-Algorithmen (Temporal Difference Learning, Monte Carlo, Sarsa, Q-learning, Policy Gradients, Dyna, und mehr).
Verstehen Sie, wie Sie Ihre Aufgabe als Reinforcement Learning Problem formalisieren und wie Sie mit der Implementierung einer Lösung beginnen.
Verstehen Sie, wie RL in den breiteren Rahmen des maschinellen Lernens passt und wie es Deep Learning, überwachtes und unüberwachtes Lernen ergänzt

Überblick

Die Reinforcement Learning Specialization besteht aus 4 Kursen, die sich mit der Leistungsfähigkeit von adaptiven Lernsystemen und künstlicher Intelligenz (KI) beschäftigen.

Um das volle Potenzial der künstlichen Intelligenz auszuschöpfen, sind adaptive Lernsysteme erforderlich. Lernen Sie, wie Reinforcement Learning (RL)-Lösungen helfen, reale Probleme durch Versuch-und-Irrtum-Interaktion zu lösen, indem Sie eine komplette RL-Lösung von Anfang bis Ende implementieren.

Am Ende dieser Specializations werden die Lernenden die Grundlagen eines Großteils der modernen probabilistischen künstlichen Intelligenz (KI) verstehen und darauf vorbereitet sein, weiterführende Kurse zu belegen oder KI-Tools und Ideen auf reale Probleme anzuwenden. Dieser Inhalt konzentriert sich auf "kleine" Probleme, um die Grundlagen des Reinforcement Learning zu verstehen, wie sie von weltweit anerkannten Experten an der University of Alberta, Faculty of Science, gelehrt werden.

Die in dieser Specializations erlernten Tools können auf die Entwicklung von Spielen (KI), Kundeninteraktion (wie eine Website mit Kunden interagiert), intelligente Assistenten, Empfehlungssysteme, Lieferketten, industrielle Steuerung, Finanzen, Öl- und Gaspipelines, industrielle Steuerungssysteme und vieles mehr angewendet werden.

Kompetenzen, die Sie erwerben

Was ist inbegriffen?

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch

16 Praxisübungen

Erweitern Sie Ihre Fachkenntnisse.

Erlernen Sie gefragte Kompetenzen von Universitäten und Branchenexperten.
Erlernen Sie ein Thema oder ein Tool mit echten Projekten.
Entwickeln Sie ein fundiertes Verständnisse der Kernkonzepte.
Erwerben Sie ein Karrierezertifikat von University of Alberta.

Spezialisierung - 4 Kursreihen

Durch Programmieraufgaben und Quizze werden die Studenten:

Ein Reinforcement Learning System erstellen, das automatisierte Entscheidungen treffen kann.

Verstehen, wie RL mit maschinellem Lernen, Deep Learning, überwachtem und unüberwachtem Lernen zusammenhängt und in den größeren Rahmen passt.

Sie verstehen den Raum der RL-Algorithmen (Temporal Difference Learning, Monte Carlo, Sarsa, Q-learning, Policy Gradient, Dyna und mehr).

Verstehen Sie, wie Sie Ihre Aufgabe als RL-Problem formalisieren und wie Sie mit der Implementierung einer Lösung beginnen können.

Grundlagen des Reinforcement Learning

KURS 115 Stunden4.8 (2,870 Bewertungen)Kurs ansehen

Was Sie lernen werden

Formalisieren Sie Probleme als Markov-Entscheidungsprozesse
Verstehen Sie die grundlegenden Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung
Wertfunktionen als Allzweckwerkzeug für optimale Entscheidungen verstehen
Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem einsetzt

Kompetenzen, die Sie erwerben

Kategorie: Reinforcement Learning

Kategorie: Markov-Modell

Kategorie: Wahrscheinlichkeitsverteilung

Kategorie: Algorithmen

Kategorie: Künstliche Intelligenz

Kategorie: Maschinelles Lernen

Kategorie: Algorithmen für maschinelles Lernen

Methoden zum Lernen anhand von Beispielen

KURS 222 Stunden4.8 (1,250 Bewertungen)Kurs ansehen

Was Sie lernen werden

In diesem Kurs lernen Sie verschiedene Algorithmen kennen, die auf der Grundlage von Versuch und Irrtum mit der Umwelt nahezu optimale Strategien erlernen können - Lernen aus der eigenen Erfahrung des Agenten. Das Lernen aus eigener Erfahrung ist bemerkenswert, weil es keine Vorkenntnisse über die Dynamik der Umgebung erfordert und dennoch ein optimales Verhalten erreichen kann. Wir werden intuitiv einfache, aber leistungsstarke Monte-Carlo-Methoden und Methoden des Lernens mit zeitlichen Differenzen einschließlich Q-Lernen behandeln. Zum Abschluss dieses Kurses werden wir untersuchen, wie wir das Beste aus beiden Welten erhalten können: Algorithmen, die modellbasierte Planung (ähnlich der dynamischen Programmierung) und Temporal-Differenzen-Updates kombinieren können, um das Lernen radikal zu beschleunigen. Am Ende dieses Kurses werden Sie in der Lage sein: - Temporal-Differenzen-Lernen und Monte Carlo als zwei Strategien zur Schätzung von Wertfunktionen aus gesampelter Erfahrung zu verstehen - die Bedeutung der Exploration zu verstehen, wenn man gesampelte Erfahrung anstelle von Sweeps der dynamischen Programmierung innerhalb eines Modells verwendet - die Verbindungen zwischen Monte Carlo und dynamischer Programmierung und TD zu verstehen.

- Implementieren und Anwenden des TD-Algorithmus zur Schätzung von Wertfunktionen - Implementieren und Anwenden von Expected Sarsa und Q-learning (zwei TD-Methoden zur Steuerung) - Verstehen des Unterschieds zwischen On-Policy- und Off-Policy-Steuerung - Verstehen der Planung mit simulierter Erfahrung (im Gegensatz zu klassischen Planungsstrategien) - Implementieren eines modellbasierten RL-Ansatzes namens Dyna, der simulierte Erfahrung verwendet - Durchführen einer empirischen Studie, um die Verbesserungen der Stichprobeneffizienz bei der Verwendung von Dyna zu ermitteln

Kompetenzen, die Sie erwerben

Kategorie: Reinforcement Learning

Kategorie: Stichproben (Statistik)

Kategorie: Algorithmen

Kategorie: Maschinelles Lernen

Kategorie: Künstliche Intelligenz und Maschinelles Lernen (KI/ML)

Kategorie: Wahrscheinlichkeitsverteilung

Kategorie: Simulationen

Kategorie: Algorithmen für maschinelles Lernen

Vorhersage und Kontrolle mit Funktionsannäherung

KURS 321 Stunden4.8 (839 Bewertungen)Kurs ansehen

Was Sie lernen werden

In diesem Kurs werden Sie lernen, wie man Probleme mit großen, hochdimensionalen und potentiell unendlichen Zustandsräumen löst. Sie werden sehen, dass die Schätzung von Wertfunktionen als ein Problem des überwachten Lernens - der Funktionsannäherung - betrachtet werden kann, das es Ihnen ermöglicht, Agenten zu entwickeln, die sorgfältig zwischen Generalisierung und Unterscheidung abwägen, um die Belohnung zu maximieren. Wir beginnen diese Reise, indem wir untersuchen, wie unsere Methoden zur Bewertung oder Vorhersage von Richtlinien wie Monte Carlo und TD auf die Funktionsannäherung erweitert werden können. Sie werden Techniken zur Konstruktion von Merkmalen für RL und das Lernen von Repräsentationen über neuronale Netze und Backprop kennenlernen. Wir schließen diesen Kurs mit einem tiefen Einblick in Policy-Gradienten-Methoden ab, eine Möglichkeit, Policies direkt zu lernen, ohne eine Wertfunktion zu lernen. In diesem Kurs werden Sie zwei Steuerungsaufgaben mit kontinuierlichen Zuständen lösen und die Vorteile von Policy-Gradienten-Methoden in einer Umgebung mit kontinuierlichen Aktionen untersuchen.

Voraussetzungen: Dieser Kurs baut stark auf den Grundlagen der Kurse 1 und 2 auf und die Lernenden sollten diese abgeschlossen haben, bevor sie diesen Kurs beginnen. Die Teilnehmer sollten außerdem mit Wahrscheinlichkeiten und Erwartungen, grundlegender linearer Algebra, Grundrechenarten, Python 3.0 (mindestens 1 Jahr) und der Implementierung von Algorithmen aus Pseudocode vertraut sein. Am Ende dieses Kurses werden Sie in der Lage sein: -Verstehen, wie man Ansätze des überwachten Lernens verwendet, um Wertfunktionen zu approximieren -Verstehen der Ziele für die Vorhersage (Wertschätzung) unter Funktionsapproximation -Implementieren von TD mit Funktionsapproximation (Zustandsaggregation), in einer Umgebung mit einem unendlichen Zustandsraum (kontinuierlicher Zustandsraum) -Verstehen von Ansätzen mit fester Basis und neuronalen Netzen zur Konstruktion von Merkmalen -Umsetzung von TD mit Funktionsapproximation durch neuronale Netze in einer Umgebung mit kontinuierlichen Zuständen -Verstehen neuer Schwierigkeiten bei der Exploration, wenn man zur Funktionsapproximation übergeht -Vergleich von diskontierten Problemformulierungen für die Kontrolle mit einer durchschnittlichen Belohnungsproblemformulierung -Implementierung von Expected Sarsa und Q-Learning mit Funktionsapproximation in einer Kontrollaufgabe mit kontinuierlichem Zustand -Verständnis von Zielen für die direkte Schätzung von Strategien (Policy-Gradient-Ziele) -Implementierung einer Policy-Gradient-Methode (genannt Actor-Critic) in einer Umgebung mit diskretem Zustand

Kompetenzen, die Sie erwerben

Kategorie: Reinforcement Learning

Kategorie: Überwachtes Lernen

Kategorie: Maschinelles Lernen

Kategorie: Künstliche neuronale Netze

Kategorie: Deep Learning

Kategorie: Lineare Algebra

Kategorie: Algorithmen für maschinelles Lernen

Kategorie: Wahrscheinlichkeitsverteilung

Kategorie: Pseudocode

Ein vollständiges System zum Verstärkungslernen (Capstone)

KURS 415 Stunden4.7 (644 Bewertungen)Kurs ansehen

Was Sie lernen werden

In diesem letzten Kurs werden Sie Ihr Wissen aus den Kursen 1, 2 und 3 zusammenführen, um eine vollständige RL-Lösung für ein Problem zu implementieren. In dieser Abschlussarbeit werden Sie sehen, wie die einzelnen Komponenten - Problemformulierung, Auswahl des Algorithmus, Auswahl der Parameter und Entwurf der Repräsentation - zu einer vollständigen Lösung zusammenpassen und wie Sie beim Einsatz von RL in der realen Welt die richtigen Entscheidungen treffen. Im Rahmen dieses Projekts müssen Sie sowohl die Umgebung zur Stimulierung Ihres Problems als auch einen Kontrollagenten mit der Funktionsannäherung eines Neuronalen Netzes implementieren. Darüber hinaus werden Sie eine wissenschaftliche Studie über Ihr Lernsystem durchführen, um Ihre Fähigkeit zu entwickeln, die Robustheit von RL-Agenten zu beurteilen. Für den Einsatz von RL in der realen Welt ist es von entscheidender Bedeutung, (a) das Problem angemessen als MDP zu formalisieren, (b) geeignete Algorithmen auszuwählen, (c) festzustellen, welche Entscheidungen in Ihrer Implementierung große Auswirkungen auf die Leistung haben werden und (d) das erwartete Verhalten Ihrer Algorithmen zu validieren. Dieser Abschlusskurs ist für jeden wertvoll, der RL zur Lösung realer Probleme einsetzen möchte. Um diesen Kurs erfolgreich zu absolvieren, müssen Sie die Kurse 1, 2 und 3 dieser Specializations oder einen gleichwertigen Kurs abgeschlossen haben. Am Ende dieses Kurses werden Sie in der Lage sein:

Kompetenzen, die Sie erwerben

Kategorie: Reinforcement Learning

Kategorie: Algorithmen für maschinelles Lernen

Kategorie: Künstliche neuronale Netze

Kategorie: Algorithmen

Kategorie: Maschinelles Lernen

Kategorie: Fehlersuche

Kategorie: Markov-Modell

Kategorie: Lösungsarchitektur

Kategorie: Leistungstests

Kategorie: Künstliche Intelligenz

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Adam White

University of Alberta

4 Kurse108.698 Lernende

Martha White

University of Alberta

4 Kurse108.698 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Es wird empfohlen, die Spezialisierung in 4-6 Monaten zu absolvieren.

Es wird empfohlen, dass die Teilnehmer mindestens ein Jahr Informatik studiert haben oder 2-3 Jahre Berufserfahrung in der Softwareentwicklung haben. Erfahrung und Vertrautheit mit der Programmierung in Python erforderlich. Sie müssen mit der Konvertierung von Algorithmen und Pseudocode in Python vertraut sein. Grundlegendes Verständnis von Konzepten aus der Statistik (Verteilungen, Stichproben, Erwartungswerte), der linearen Algebra (Vektoren und Matrizen) und der Infinitesimalrechnung (Berechnung von Ableitungen)

Ja, es wird empfohlen, die Kurse der Reihe nach zu belegen.

Am Ende dieser Specialization werden Sie in der Lage sein,"

Ein Reinforcement Learning System für die sequentielle Entscheidungsfindung zu entwickeln.
Den Raum der RL-Algorithmen zu verstehen (Temporal Difference Learning, Monte Carlo, Sarsa, Q-learning, Policy Gradients, Dyna, und mehr).
Verstehen Sie, wie Sie Ihre Aufgabe als Reinforcement Learning-Problem formalisieren und wie Sie mit der Implementierung einer Lösung beginnen können.
Verstehen Sie, wie RL in den größeren Rahmen des maschinellen Lernens passt und wie es Deep Learning, überwachtes und unüberwachtes Lernen ergänzt.

Ja! Um loszulegen, klicken Sie auf die Programmkarte, die Sie interessiert, und melden Sie sich an. Sie können sich registrieren und das Programm abschließen, um ein Zertifikat zu erhalten, das Sie mit anderen teilen können. Oder Sie können das Programm besuchen, um das Programmmaterial kostenlos anzusehen. Wenn Sie sich für ein Programm anmelden, das Teil einer Spezialisierung ist, sind Sie automatisch auch für die gesamte Spezialisierung angemeldet. Besuchen Sie Ihr Lerner-Dashboard, um Ihren Fortschritt zu verfolgen.

Nein, Sie können diesen Kurs nicht kostenlos besuchen.Wenn Sie sich für das Programm registrieren, erhalten Sie Zugang zu allen Programmen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Wenn Sie die Programminhalte nur lesen und ansehen möchten, können Sie das Programm kostenlos besuchen. Wenn Sie sich die Gebühr nicht leisten können, ist die Beantragung finanzieller Unterstützung möglich.