Senior HPC AI Engineer

Job expired!

NVIDIA recherche un Ingénieur HPC qualifié pour rejoindre notre équipe d'Infrastructure de Vérification Logicielle de bout en bout HPC/IA. Nous nous spécialisons dans la construction de superordinateurs et de clusters HPC en utilisant des technologies révolutionnaires. C'est une opportunité unique de contribuer aux dernières avancées en intelligence artificielle et en calcul GPU en offrant des informations sur la conception de systèmes à grande échelle et des mécanismes d'optimisation pour des traitements à grande échelle.

En tant qu'Ingénieur Senior HPC IA, vous allez :

  • Concevoir, mettre en œuvre et maintenir des clusters HPC/IA à grande échelle avec des capacités de surveillance, journalisation et alerte.
  • Gérer les planificateurs de tâches/travaux Linux et les outils d'orchestration.
  • Développer et maintenir des pipelines d'intégration et de livraison continues.
  • Développer des outils d'automatisation pour le déploiement et la gestion d'environnements d'infrastructure à grande échelle.
  • Déployer des solutions de surveillance pour les serveurs, les réseaux et les systèmes de stockage.
  • Déboguer les problèmes du niveau matériel à la couche application.
  • Servir de ressource technique pour développer et documenter des meilleures pratiques.
  • Soutenir les activités de Recherche & Développement et participer à des POC/POV pour promouvoir les améliorations futures.

Nous recherchons des individus qui possèdent :

  • Un diplôme en Informatique, Ingénierie ou un domaine similaire.
  • Plus de 5 ans d'expérience pertinente en technologies de solutions HPC et IA.
  • Expérience avec des outils de planification de tâches et d'orchestration tels que Slurm et Kubernetes (K8s).
  • Excellente connaissance des systèmes d'exploitation Windows et Linux (Redhat/CentOS et Ubuntu) et de leurs internals, incluant les réseaux, les protocoles de sécurité (TCP, DHCP, DNS) et les configurations de pare-feu.
  • Expérience pratique avec plusieurs solutions de stockage telles que Lustre, GPFS, ZFS et XFS.
  • Expertise en programmation Python et scripting bash.
  • Maîtrise des outils d'automatisation et de gestion de configuration comme Jenkins, Ansible, Puppet et Chef.
  • Connaissances approfondies des protocoles de mise en réseau incluant InfiniBand et Ethernet.
  • Expérience avec des systèmes virtuels comme VMware, Hyper-V, KVM ou Citrix.

Comment se démarquer :

  • Familiarité avec des plateformes de cloud computing (ex. AWS, Azure, Google Cloud).
  • Connaissance des architectures CPU et/ou GPU.
  • Expérience avec du hardware/logiciel focalisé sur le GPU (DGX, CUDA).
  • Connaissance des tissus RDMA (InfiniBand ou RoCE).
  • Maîtrise de Kubernetes et des technologies de conteneurisation de microservices.

Chez NVIDIA, la diversité est une force motrice de notre innovation. Nous sommes un employeur garantissant l'égalité des chances et valorisons la diversité au sein de notre entreprise. Nous ne faisons pas de discrimination basée sur la race, la religion, la couleur, l'origine nationale, le sexe, le genre, l'expression de genre, l'orientation sexuelle, l'âge, le statut marital, le statut de vétéran ou le statut de handicap. Nous assurons des aménagements raisonnables pour les personnes en situation de handicap durant le processus de candidature ou d'entretien, l'exécution des fonctions essentielles du poste, et à travers d'autres avantages et privilèges de l'emploi. Si vous avez besoin d'un aménagement, veuillez nous contacter.

Nom de l'entreprise : NVIDIA
Intitulé du poste : Ingénieur Senior HPC IA