N

GPU Cluster Engineer (Mensch)

icon building Unternehmen : Neura Robotics
icon briefcase Auftragstyp : Vollzeit

Anzahl der Bewerber

 : 

000+

Click to reveal the number of candidates who applied for this job.
icon loader
Jetzt bewerben
icon loader Jetzt bewerben

Let AI Supercharge Your Job Hunt!

JobCopilot scans 500,000+ company career sites daily to find jobs for you

Never miss an opportunity Save hours by auto-filling applications forms Land more interviews with tailored applications
happy man
thunder iconActivate JobCopilot

Arbeitsbeschreibung - GPU Cluster Engineer (Mensch)

Deine Mission & Herausforderungen

  • Du bist die zentrale Ansprechperson für NEURAs GPU‑Cluster-Infrastruktur – ein großskaliges AWS‑HyperPod‑Setup mit topmodernen GPU‑Instanzen für Foundation‑Model‑Training und kundenspezifische Fine‑Tuning‑Workloads.

  • Du entwickelst das Betriebsframework, baust Self‑Service‑Tools für die ML‑Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler‑Ebene mitzugestalten.

  • Dein Fokus liegt voll auf Cluster Engineering & Operations — nicht auf ML‑Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.

  • Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod‑Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS‑Orchestrierungsmodellen.

  • Design und Umsetzung von Strategien für Cluster-Stabilität: Node‑Failure‑Detection, automatische Job‑Recovery, Checkpoint‑Koordination und fehlertolerante Multi‑Node‑Training‑Workflows.

  • Aufbau eines Workload‑Priority‑Frameworks, das mehreren Teams und Use Cases – Pretraining, Fine‑Tuning, Kundenjobs – erlaubt, Clusterkapazität fair und effizient zu teilen.

  • Optimierung der End‑to‑End‑GPU‑Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU‑Speicher, EFA‑Netzwerk und Storage‑Durchsatz.

  • Enge Zusammenarbeit mit den AWS HyperPod‑Produkt‑ und Engineering‑Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.

  • Bereitstellung von Self‑Service‑Tools, damit ML‑Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können – ohne ständige Infrastrukturunterstützung.

  • Erstellung von Onboarding‑Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.

  • Infrastructure as Code ist für dich Standard. Jede Cluster‑Konfiguration, jede Änderung, jede Umgebung ist Code‑first.

  • Verantwortung für Kosten- und Kapazitätsstrategie: Spot‑Management, Reserved‑Instance‑Planung, Savings Plans und laufende AWS‑Commitment‑Verhandlungen.

Auf was können wir uns freuen

  • 5+ Jahre Erfahrung im Infrastructure‑ oder Systems‑Engineering, idealerweise mit Fokus auf GPU‑Cluster oder HPC‑Umgebungen.

  • Tiefe praktische Erfahrung mit AWS HyperPod und AWS‑Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.

  • Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten – und die Fähigkeit, ihre Trade‑offs für große GPU‑Workloads zu bewerten.

  • Praktisches Wissen über Distributed Training – du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.

  • Erfahrung in der Entwicklung von Self‑Service‑Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.

  • Starkes Verständnis für Cloud‑Kostenmanagement im großen Maßstab: Spot‑Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.

  • Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg – deine Hauptpartner sind ML‑Forschende, aber auch Product, Finance und Cloud‑Vendors.

  • Sehr gute Englischkenntnisse; Deutsch ist ein Plus.

Original job GPU Cluster Engineer (Mensch) posted on GrabJobs ©. To flag any issues with this job please use the Report Job button on GrabJobs.
Jetzt bewerben
Share Job
Share Job

Über das Unternehmen

Neura Robotics

Cognitive Robotics A new era of human robot collaboration Next-gen robotics for smarter automation Cognitive robots that think and learn, […]

Lesen Sie mehr über das Unternehmen

Auto-Apply to GPU Cluster Engineer Jobs with your AI JobCopilot

thunder icon Auto-Apply with AI

Similar GPU Cluster Engineer Jobs in Germany

GrabJobs ist das führende Jobportal in Germany und verbindet Sie schnell mit Tausenden von -Jobs! Finden Sie die besten -Jobs in Germany, bewerben Sie sich mit einem Klick und sichern Sie sich noch heute einen Job!

Mobile Apps

Copyright © 2026 Grabjobs Pte.Ltd. All Rights Reserved.