IBM
Generative AI-Feinabstimmung für LLMs

Bringen Sie Ihre Karriere in diesem Sommer in Schwung mit Kursen von Google, IBM und anderen für £190/Jahr. Jetzt sparen.

IBM

Generative AI-Feinabstimmung für LLMs

Dieser Kurs ist Teil mehrerer Programme.

Unterrichtet in Deutsch (KI-Synchronisation)

Joseph Santarcangelo
Ashutosh Sagar
Wojciech 'Victor' Fulmyk

Dozenten: Joseph Santarcangelo

8.562 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.3

(79 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 9 Stunden
3 Wochen bei 3 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.3

(79 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 9 Stunden
3 Wochen bei 3 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Gefragt sind generative KI-Engineering-Fähigkeiten zur Feinabstimmung von LLMs, die von Arbeitgebern aktiv gesucht werden

  • Anweisungsabstimmung und Belohnungsmodellierung unter Verwendung von Hugging Face, sowie Verständnis von LLMs als Richtlinien und Anwendung von RLHF-Techniken

  • Direkte Präferenzoptimierung (DPO) mit Partitionsfunktion und Hugging Face, einschließlich der Definition optimaler Lösungen für DPO-Probleme

  • Proximale Politikoptimierung (PPO) mit Hugging Face zur Erstellung von Bewertungsfunktionen und Tokenisierung von Datensätzen für die Feinabstimmung

Kompetenzen, die Sie erwerben

  • Kategorie: Ausbildung und Entwicklung
  • Kategorie: Prompt Engineering
  • Kategorie: Leistungsoptimierung
  • Kategorie: Modellierung großer Sprachen
  • Kategorie: Reinforcement Learning
  • Kategorie: Generative KI
  • Kategorie: Verarbeitung natürlicher Sprache
  • Kategorie: Bewertung der Qualität
  • Kategorie: Benutzer-Feedback

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Aufgaben

Unterrichtet in Deutsch (KI-Synchronisation)

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 2 Module

In diesem Modul werden Sie fortgeschrittene Techniken zur Feinabstimmung großer Sprachmodelle (LLMs) durch Instruktionsabstimmung und Belohnungsmodellierung erkunden. Sie beginnen mit der Definition der Befehlsabstimmung und lernen den Prozess kennen, einschließlich des Ladens von Datensätzen, Texterzeugungspipelines und Trainingsargumenten mit Hugging Face. Anschließend tauchen Sie in die Belohnungsmodellierung ein, wo Sie Datensätze vorverarbeiten, Low-Rank-Adaptation (LoRA)-Konfigurationen anwenden und Qualitätsreaktionen quantifizieren, um die Modelloptimierung zu steuern und mit menschlichen Präferenzen in Einklang zu bringen. Sie werden auch Reward-Trainer und Reward-Modell-Verlustfunktionen beschreiben und anwenden. Darüber hinaus werden Sie in den praktischen Übungen Ihre Kenntnisse durch praktische Erfahrungen mit der Abstimmung von Anweisungen und der Belohnungsmodellierung vertiefen und so in die Lage versetzt, LLMs für bestimmte Aufgaben effektiv anzupassen.

Das ist alles enthalten

6 Videos4 Lektüren2 Aufgaben2 App-Elemente3 Plug-ins

In diesem Modul erforschen Sie fortgeschrittene Techniken zur Feinabstimmung großer Sprachmodelle (LLMs) unter Verwendung von Reinforcement Learning from Human Feedback (RLHF), Proximal Policy Optimization (PPO) und Direct Preference Optimization (DPO). Sie werden zunächst beschreiben, wie LLMs als probabilistische Verteilungen funktionieren und wie diese in Richtlinien umgewandelt werden können, um Antworten auf der Grundlage von Eingabetext zu generieren. Sie werden die Beziehung zwischen Richtlinien und Sprachmodellen als Funktion von Parametern, wie z.B. Omega, untersuchen und wie Belohnungen unter Verwendung menschlichen Feedbacks berechnet werden können. Dazu gehören das Trainieren von Antwortmustern, die Bewertung der Leistung von Agenten und die Definition von Bewertungsfunktionen für Aufgaben wie die Analyse von Gefühlen mit PPO. Sie werden auch in der Lage sein, die PPO-Konfiguration, Lernraten und die Rolle des PPO-Trainers bei der Optimierung von Chatbot-Antworten mit Hugging Face-Tools zu erklären. Das Modul stellt außerdem DPO vor, eine direktere und effizientere Methode zur Anpassung von Modellen an menschliche Präferenzen. Obwohl komplexe Themen wie PPO und Reinforcement Learning vorgestellt werden, wird von Ihnen nicht erwartet, dass Sie sie in diesem Kurs in der Tiefe verstehen. In den praktischen Übungen in diesem Modul können Sie die Anwendung von RLHF und DPO üben. Zur Unterstützung Ihres Lernens sind ein Spickzettel und ein Glossar zum schnellen Nachschlagen enthalten.

Das ist alles enthalten

10 Videos5 Lektüren3 Aufgaben2 App-Elemente4 Plug-ins

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen
3.7 (7 Bewertungen)
Joseph Santarcangelo
IBM
35 Kurse2.002.361 Lernende

von

IBM

Mehr von Maschinelles Lernen entdecken

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.3

79 Bewertungen

  • 5 stars

    72,50 %

  • 4 stars

    8,75 %

  • 3 stars

    5 %

  • 2 stars

    5 %

  • 1 star

    8,75 %

Zeigt 3 von 79 an

AV
5

Geprüft am 11. März 2025

RN
5

Geprüft am 11. März 2025

SG
5

Geprüft am 11. März 2025

Coursera Plus

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen