Nombre de candidats
:000+
Let AI Supercharge Your Job Hunt!
JobCopilot scans 500,000+ company career sites daily to find jobs for you
SRE Baremetal H/F/N
Au sein de votre équipe #OneTeam
Vos principales responsabilités
Analyser et résoudre les incidents en s'appuyant sur des outils d'AIOps (analyse avancée et corrélation de logs multi-sources), identifier les causes racines et automatiser leur traitement.
Concevoir et implémenter des mécanismes d'auto-remédiation pour réduire le MTTR.
Mettre en place des indicateurs et des alertes basés sur l'analyse prédictive des anomalies pour intervenir avant l'impact utilisateur.
Traiter les demandes transmises par les équipes support client ou d'autres équipes opérationnelles.
Créer et assurer le suivi des PostMortem en cas d'incident majeur, en exploitant l'IA pour documenter et accélérer l'analyse post-incident.
Assurer la continuité de service 24h/24 (avec participation à des périodes d'astreintes, après une montée en compétence suffisante).
Déployer et maintenir le parc interne BareMetal et les infrastructures cloud/hybrides.
Développer des outils, des patchs et des fonctionnalités pour gérer les infrastructures, en maximisant l'usage d'assistants de code.
Votre futur impact
Dans 6 mois
Vous aurez pris vos marques au sein de l'équipe Baremetal Operations et appréhendé notre infrastructure ainsi que nos services. Vous comprendrez les défis actuels liés à la haute disponibilité et commencerez à manipuler nos outils d'AIOps.
Vous aurez participé à l'analyse et à la résolution des premiers incidents, en contribuant à l'identification des causes racines et en vous familiarisant avec nos mécanismes d'auto-remédiation.
Vous aurez établi des relations avec les équipes support et les autres entités opérationnelles pour fluidifier le traitement des demandes et la gestion des alertes prédictives.
Vous aurez exploré nos environnements de développement et de scripting (Python, Go, Bash) afin de proposer vos premières optimisations de code assistées par IA.
Et dans 1 an
Vous aurez joué un rôle clé dans le déploiement de nouvelles solutions de supervision intelligente et l'intégration de technologies d'IA générative/prédictive au sein de nos outils d'exploitation.
Vous aurez partagé votre expertise en pratiques AIOps et Prompt Engineering avec l'équipe, en automatisant une part significative des processus de traitement des anomalies et des PostMortem.
Vous aurez interagi avec l'ensemble de l'écosystème technique d'OVHcloud, en assurant des astreintes en toute autonomie et en maintenant le parc BareMetal au meilleur niveau de performance et de scalabilité.
Compétences requises :
Vous possédez de solides connaissances en système et réseau (Unix, Cisco/Arista), maîtrisez le scripting (Bash) et le développement dans au moins un langage parmi Python ou Go.
Vous maîtrisez la culture et les pratiques AIOps (analyse prédictive, détection d'anomalies par ML, corrélation d'événements) ainsi que les techniques de Prompt Engineering avec l'utilisation d'assistants de code.
Vous êtes à l'aise avec les bonnes pratiques CI/CD, les méthodes agiles, et faites preuve de réactivité, de rigueur ainsi que d'un fort sens du service client.
Vous avez une bonne capacité de prise de recul, un sens analytique aiguisé et un esprit critique face aux suggestions des outils d'IA pour gérer les priorités face à des situations complexes.
C'est un +
Vous connaissez Kubernetes, Terraform et les outils/méthodes DevOps.
Vous avez une expérience avec des plateformes d'observabilité intégrant des modules IA, une connaissance du référentiel ITIL v3/v4 ou une première expérience en maintenance d'infrastructures IT.
Auto-Apply to SRE Baremetal Jobs with your AI JobCopilot
Copyright © 2026 Grabjobs Pte.Ltd. All Rights Reserved.