IBM
L'IA générative fait progresser la mise au point des LLM

Vente anticipée ! Débloquez plus de 10 000 cours de Google, Microsoft et autres pour 160 €/an. Économisez maintenant.

IBM

L'IA générative fait progresser la mise au point des LLM

Ce cours fait partie de plusieurs programmes.

Enseigné en Français (doublage IA)

Joseph Santarcangelo
Ashutosh Sagar
Wojciech 'Victor' Fulmyk

Instructeurs : Joseph Santarcangelo

8 091 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.3

(79 avis)

niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.3

(79 avis)

niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Compétences en ingénierie de l'IA générative en demande dans les LLM de mise au point que les employeurs recherchent activement

  • Réglage des instructions et modélisation des récompenses à l'aide de Hugging Face, ainsi que compréhension des LLM en tant que politiques et application des techniques RLHF

  • Optimisation directe des préférences (DPO) avec fonction de partition et Hugging Face, y compris la manière de définir les solutions optimales aux problèmes de DPO

  • Utilisation de l'optimisation proximale des politiques (PPO) avec Hugging Face pour construire des fonctions d'évaluation et tokeniser des ensembles de données pour un réglage fin

Compétences que vous acquerrez

  • Catégorie : Grand modèle de langage (LLM)
  • Catégorie : IA générative
  • Catégorie : Traitement du langage naturel (NLP)
  • Catégorie : Formation et développement
  • Catégorie : Commentaires des utilisateurs
  • Catégorie : Prompt engineering
  • Catégorie : Évaluation de la qualité
  • Catégorie : Apprentissage par renforcement
  • Catégorie : Optimisation des performances

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 devoirs

Enseigné en Français (doublage IA)

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

Dans ce module, vous explorerez des techniques avancées pour affiner les grands modèles de langage (LLM) à travers l'ajustement des instructions et la modélisation de la récompense. Vous commencerez par définir le réglage des instructions et apprendrez son processus, y compris le chargement des ensembles de données, les pipelines de génération de texte et les arguments d'entraînement en utilisant Hugging Face. Vous vous plongerez ensuite dans la modélisation des récompenses, où vous prétraiterez des ensembles de données, appliquerez des configurations d'adaptation de rang faible (LoRA) et quantifierez les réponses de qualité pour guider l'optimisation du modèle et s'aligner sur les préférences humaines. Vous décrirez et utiliserez également des formateurs de récompense et des fonctions de perte de modèle de récompense. En outre, les laboratoires pratiques renforceront votre apprentissage avec une expérience pratique dans le réglage des instructions et la modélisation de la récompense, vous permettant de personnaliser efficacement les LLM pour des tâches ciblées.

Inclus

6 vidéos4 lectures2 devoirs2 éléments d'application3 plugins

Dans ce module, vous explorerez des techniques avancées pour affiner les grands modèles de langage (LLM) en utilisant l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO) et l'optimisation directe des préférences (DPO). Vous commencerez par décrire comment les LLM fonctionnent en tant que distributions probabilistes et comment celles-ci peuvent être transformées en politiques pour générer des réponses basées sur le texte d'entrée. Vous examinerez la relation entre les politiques et les modèles de langage en fonction de paramètres, tels que l'oméga, et la manière dont les récompenses peuvent être calculées à l'aide du retour d'information humain. Cela inclut la formation d'échantillons de réponses, l'évaluation des performances des agents et la définition de fonctions de notation pour des tâches telles que l'analyse des sentiments à l'aide de PPO. Vous serez également en mesure d'expliquer la configuration de PPO, les taux d'apprentissage et le rôle du formateur PPO dans l'optimisation des réponses du chatbot à l'aide des outils Hugging Face. Le module présente en outre le DPO, un moyen plus direct et plus efficace d'aligner les modèles sur les préférences humaines. Bien que des sujets complexes comme l'OPP et l'apprentissage par renforcement soient introduits, vous n'êtes pas censé les comprendre en profondeur pour ce cours. Les travaux pratiques de ce module vous permettront de vous exercer à l'application de la RLHF et de la DPO. Pour vous aider dans votre apprentissage, une antisèche et un glossaire sont inclus pour une référence rapide.

Inclus

10 vidéos5 lectures3 devoirs2 éléments d'application4 plugins

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant
3.7 (7 évaluations)
Joseph Santarcangelo
IBM
35 Cours1 982 745 apprenants

Offert par

IBM

En savoir plus sur Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.3

79 avis

  • 5 stars

    72,50 %

  • 4 stars

    8,75 %

  • 3 stars

    5 %

  • 2 stars

    5 %

  • 1 star

    8,75 %

Affichage de 3 sur 79

GP
5

Révisé le 11 mars 2025

AV
5

Révisé le 11 mars 2025

RN
5

Révisé le 11 mars 2025

Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions