O

Stage - Conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intelligents F

icon building Compagnie : Orange
icon briefcase Type d'emploi : Stage

Nombre de candidats

 : 

000+

Click to reveal the number of candidates who applied for this job.
icon loader
icon loader

Let AI Supercharge Your Job Hunt!

JobCopilot scans 500,000+ company career sites daily to find jobs for you

Never miss an opportunity Save hours by auto-filling applications forms Land more interviews with tailored applications
happy man
thunder iconActivate JobCopilot

Description de l'emploi - Stage - Conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intelligents F

Publication date: Dec 18, 2025, 12:47PM

Les applications de chat vocal (comme Gemini, gpt4o-realtime, Moshi) sont une révolution des interactions homme-machine, promettant une discussion fluide en langage naturelle et permettant de répondre à un nombre important de cas d'usage.
Néanmoins, il existe encore des freins à l'adoption de telles approches. En particulier, il est essentiel de déterminer avec précision le moment où l'utilisateur a terminé de parler afin de générer une réponse adaptée et réactive. La détection d'activité vocale (VAD) traditionnelle [1] repose sur des modèles qui identifient simplement si l'utilisateur parle ou non, en utilisant un seuil d'énergie et un délai de silence fixe après la fin de la parole. Cependant, cette approche présente des limites, notamment en présence de longues pauses ou d'intonations variées, qui peuvent entraîner des erreurs de détection.

L'objectif de ce stage est d'étudier et de développer des solutions alternatives à la VAD basée seuils et délais de silence fixes, en particulier la VAD sémantique [2]. Cette dernière a pour promesse d'améliorer la précision de la détection de la fin de la parole en prenant en compte le contenu linguistique et l'intonation d'un énoncé.

Le stage débutera par une prise en main des solutions existantes, avec une analyse du fonctionnement des systèmes Speech2Speech [3,4] et une évaluation des limites de la VAD basée seuils et délais fixes. Ensuite, une revue de l'état de l'art sera réalisée pour identifier les méthodes innovantes et les approches récentes en matière de VAD, de Speech2Speech et de VAD sémantique. Par la suite, des métriques pertinentes seront définies afin de mesurer la performance, la latence et la gestion des interruptions, pouvant conduire à l'enrichissement de bases de données existantes.

Enfin, le stagiaire développera puis entraînera un modèle de VAD sémantique capable de prédire non seulement la présence de parole, mais aussi la probabilité que l'utilisateur ait terminé de parler. Ce modèle sera intégré dans notre solution interne de Speech2Speech, et une évaluation comparative sera menée pour mesurer l'impact de cette nouvelle approche sur la précision, la réactivité et la fluidité du système.

Références scientifiques :

[1] Graf, S., Herbig, T., Buck, M., & Schmidt, G. (2015). Features for voice activity detection: a comparative analysis. EURASIP Journal on Advances in Signal Processing, 2015(1), 91.

[2] Shi, M., Shu, Y., Zuo, L., Chen, Q., Zhang, S., Zhang, J., & Dai, L. R. (2023). Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction. In Proc. Interspeech 2023 (pp. 5047-5051).

[3] Chen, Q., Chen, Y., Chen, Y., Chen, M., Chen, Y., Deng, C., ... & Zhou, J. (2025). Minmo: A multimodal large language model for seamless voice interaction. arXiv preprint arXiv:2501.

[4] Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., ... & Zeghidour, N. (2024). Moshi: a speech-text foundation model for real-time dialogue. arXiv preprint arXiv:2410.00037.

Ce stage s'adresse à un(e) étudiant(e) en Master ou école d'ingénieur, spécialisé(e) en data science, apprentissage automatique ou intelligence artificielle.
  • Vos hard skills
    Connaissances en intelligence artificielle, notamment en deep learning.
    Programmation en Python, PyTorch
    Bonne maîtrise de l'environnement Linux et des outils de versioning (git), docker
    Expérienceen traitement de la parole / audio
  • Vos soft skills
    Nous recherchons une personne curieuse, capable de travailler en autonomie tout en s'intégrant efficacement au sein d'une équipe pluridisciplinaire. La rigueur scientifique, l'esprit d'analyse et la capacité à relever des défis techniques complexes sont également essentiels pour réussir dans ce stage.
  • Avantages de l'offre
    • Environnement convivial et stimulant.
    • Intégration au sein d'une équipe experte et bienveillante, favorisant l'apprentissage et l'innovation.
  • Perspectives d'évolution
    Ce stage constitue une excellente porte d'entrée vers une carrière dans les domaines de l'intelligence artificielle et du traitement de la voix. Il peut ouvrir des opportunités dans des secteurs innovants liés à l'IA et à la technologie vocale.
  • Promesse employeur
    Chez Orange, vous contribuez à façonner une technologie respectueuse des individus et de leur vie privée. Vous relevez les défis complexes de la tech responsable en innovant avec passion et rigueur, pour créer des solutions qui ont un impact positif et durable. Quand vous voulez explorer et transformer la tech avec conscience, Orange est là.

Vous intégrez une équipe composée de chercheurs, d'ingénieurs de développement d'applications Intelligence Artificielle (IA) et d'ingénieurs de recherche au sein de la direction Data & Intelligence Artificielle (Data&IA) de la division Innovation, et qui a pour mission :
  • de consolider notre savoir-faire autour d'environnements IA de production,
  • d'aider les directions métiers et les filiales d'Orange à développer l'usage de l'intelligence artificielle en mode cloud dans leur métier, lors de leur phase d'appropriation ou dans la phase de mise en œuvre d'applications requérant une expertise technique importante,
  • d'accompagner les entités opérationnelles dans la mise en œuvre de ces solutions et leur adaptation opérationnelle aux problèmes métiers de l'opérateur.

Desired start date: Feb 01, 2026, 12:00AM

Seules vos compétences comptent

Quel(s) que soient votre âge, votre sexe, vos origines, votre religion, votre orientation sexuelle, votre neuro-diversité, votre handicap ou votre apparence, nous encourageons activement la diversité au sein de nos équipes, car elle est à la fois une force collective et un moteur d'innovation. Orange est une entreprise accessible aux personnes en situation de handicap : n'hésitez pas à nous faire part de vos besoins spécifiques.

Application deadline

As long as the job is online

Study level

Master level or equivalent

Job Category

Statistics, Data Analytics & Applied Maths
Original job Stage - Conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intelligents F posted on GrabJobs ©. To flag any issues with this job please use the Report Job button on GrabJobs.
Share Job
Share Job

Auto-Apply to Conception d'un détecteur sémantique d'activité vocale Jobs with your AI JobCopilot

thunder icon Auto-Apply with AI

Similar Conception d'un détecteur sémantique d'activité vocale Jobs in France

GrabJobs est le portail d'emploi n°1 en :country, te connectant rapidement à des milliers d'emplois ! Trouve les meilleurs emplois de dans France, postule en 1 clic et obtiens un emploi dès aujourd'hui !

Applications mobile

Copyright © 2026 Grabjobs Pte.Ltd. All Rights Reserved.