O

Stage - Exploration des modèles de récompense pour améliorer le comportement des LLMs F/H

icon building Compagnie : Orange
icon briefcase Type d'emploi : À plein temps

Nombre de candidats

 : 

000+

Click to reveal the number of candidates who applied for this job.
icon loader
icon loader

Let AI Supercharge Your Job Hunt!

JobCopilot scans 500,000+ company career sites daily to find jobs for you

Never miss an opportunity Save hours by auto-filling applications forms Land more interviews with tailored applications
happy man
thunder iconActivate JobCopilot

Description de l'emploi - Stage - Exploration des modèles de récompense pour améliorer le comportement des LLMs F/H

Votre rôle

Ce stage se concentrera sur l'entrainement et l'évaluation des modèles de récompense utilisés pour améliorer les modèles de langue (l'alignement avec des préférences humaines).

Nous avons implémenté un modèle de récompense, c'est à dire un modèle de régression, qui utilise l'approche d'adaptation de domaine par inversion du gradient [Ganin and Lempitsky 2015]. Cette approche est utilisée lorsqu'il y a très peu des données cibles disponibles et nous utilisons des données similaires qui proviennent des autres domaines. L'adaptation de domaine par inversion du gradient fait que le modèle est capable de généraliser entre les différents domaines sans être biaisé par le domaine qui a le plus de données.

Les étapes à mener pendant ce stage sont les suivantes :
• Se familiariser avec l'adaptation de domaine par inversion du gradient et comprendre le modèle de régression que nous avons déjà implémenté.
• Sélectionner un jeu de données et un critère d'évaluation (par exemple la fiabilité) pour évaluer les modèles de régression.
• Comparer la performance du modèle d'adaptation avec les modèles de régression classique.
• Se familiariser avec l'apprentissage par renforcement et notamment la bibliothèque python TRL de Huggingface pour améliorer les modèles de langue en utilisant le renforcement.
• Evaluer le modèle de récompense adapté par rapport aux modèles de régression classique dans TRL afin de déterminer s'il y a un gain observé.

Sous la responsabilité de votre maître de stage vous collaborez aux activités de Recherche de l'équipe NADIA axées sur l'amélioration des modèles de langue (l'alignement). Vous interagissez avec différents membres de l'équipe (chercheurs, doctorant, data-scientists, développeurs). Ce sujet de stage est en lien avec un thèse doctorale.

[Ganin and Lempitsky 2015]. Unsupervised domain adaptation by backpropagation. ICML 2015.

Votre profil

Dans le cadre de votre formation bac+5 (école ingénieur ou master 2 informatique ou statistiques), vous êtes à la recherche d'un stage de 6 mois.
• Vous avez des connaissances en statistiques et informatique.
• Des connaissances en Python sont impératives.
• Des connaissances en apprentissage statistique sont requises.
• Vous êtes familiarisé avec PyTorch
• Vous connaissez les Transformers et vous êtes familiarisé avec le code OpenSource de Huggingface.
• Vous avez des connaissances sur les modèles de langue génératifs
• Vous pouvez lire les articles académiques en anglais.

Entité

L'équipe NADIA " NAtural DIAlogue interaction " (NADIA) travaille - au sein de la direction DATA-IA dans la division Innovation. C'est une équipe pluridisciplinaire composée d'une vingtaine de chercheurs, data-scientists, ingénieurs logiciels, doctorants et apprentis.

Nous sommes spécialisés dans le traitement et l'analyse du dialogue, avec un focus sur le développement de solutions innovantes pour améliorer l'interaction homme-machine.

Contrat

Stage

Durée : 6 mois

Date souhaitée de prise de poste : 02 févr. 2026
Niveau d'études préparé pendant le stage Indemnité brute selon école Bac+5 de 1621 € à 2162 € / mois

Application deadline

As long as the job is online

Study level

Master level or equivalent

Job Category

Statistics, Data Analytics & Applied Maths
Original job Stage - Exploration des modèles de récompense pour améliorer le comportement des LLMs F/H posted on GrabJobs ©. To flag any issues with this job please use the Report Job button on GrabJobs.
Share Job
Share Job

Auto-Apply to Stage - Exploration des modèles de récompense Jobs with your AI JobCopilot

thunder icon Auto-Apply with AI

Similar Stage - Exploration des modèles de récompense Jobs in France

GrabJobs est le portail d'emploi n°1 en :country, te connectant rapidement à des milliers d'emplois ! Trouve les meilleurs emplois de dans France, postule en 1 clic et obtiens un emploi dès aujourd'hui !

Applications mobile

Copyright © 2026 Grabjobs Pte.Ltd. All Rights Reserved.