Ingénieur principal de plateforme ML, AI - MLOps

  • Full Time
Job expired!

Rejoignez l'équipe qui construit le logiciel qui sera utilisé par le monde entier de l'IA. Travaillez avec des ingénieurs logiciels de haut niveau pour mettre en œuvre un ensemble d'outils à grande échelle qui testent les modèles et les cadres d'apprentissage profond sur les ordinateurs les plus puissants. La capacité à travailler dans un environnement multifacette et rapide est requise, ainsi que de fortes compétences sociales. Dans ce rôle, vous interagirez avec des partenaires internes, des utilisateurs et des membres de la communauté open source pour mettre en œuvre des solutions de construction, de test, d'intégration et de publication des services AI de NVIDIA et des cadres d'apprentissage profond sur les clusters GPU d'entreprise les plus puissants, capables de centaines de Peta FLOPS. Ce rôle couvre plusieurs produits tels que PyTorch, TensorFlow, JAX, PaddlePaddle. Vous travaillerez avec les équipes d'ingénierie internes pour déployer et opérationnaliser les modèles et services AI à grande échelle en favorisant l'adoption de solutions de Machine Learning et d'apprentissage profond de bout en bout dans le cloud et sur site.

Nous recherchons des individus passionnés pour nous aider à développer nos services, plateformes, modèles et outils internes d'IA et d'apprentissage profond. Vous serez responsable de la mise en œuvre et de la maintenance des pratiques, outils et infrastructures DevOps/MLOps qui permettent à nos équipes de fournir un logiciel de haute qualité de manière fiable et efficace, tout en assurant une gestion et un déploiement des versions fluides. Êtes-vous prêt pour ce défi?

Ce que vous allez faire:

  • Développer, maintenir et améliorer les outils CI/CD pour le déploiement sur site et dans le cloud de notre logiciel, permettre des systèmes de construction cross-platform sophistiqués et apporter une ingénierie de publication de classe mondiale aux processus de déploiement de plateforme et de cloud de NVIDIA.

  • Permettre une plateforme de test et de benchmarking d'apprentissage profond en libre-service en utilisant des outils standard de l'industrie (par exemple, Gitlab, GitHub, Jenkins, Docker, Bash, ...) et des outils propriétaires de NVIDIA. Diriger les meilleures pratiques et méthodologies pour construire, tester et publier des logiciels DL et soutenir les utilisateurs de la plateforme.

  • Surveillez et corrigez les pipelines de développement et de déploiement de logiciels, identifiez et résolvez les problèmes liés aux échecs de construction, aux échecs de test, à la qualité du code et aux performances, en collaboration avec les équipes de développement, d'exploitation et d'assurance qualité.

  • Préparez la documentation des approches proposées, des politiques, des formats de données, des cas de test et des résultats attendus dans le cadre de vos projets. Documentez et faites connaître ces éléments.

  • Collaborez avec les équipes de développement, d'exploitation et d'assurance qualité pour établir et maintenir des pratiques, des outils et une infrastructure DevOps fiables et efficaces qui permettent l'intégration continue, la livraison continue (IC/CD), et une gestion efficace des versions logicielles.

Ce que nous devons voir :

  • Baccalauréat ou Master en informatique, en architecture informatique ou dans un domaine technique lié, ou une expérience équivalente.

  • 5+ années d'expérience professionnelle en ingénierie de plateforme/ MLOps/DevOps

  • Très bonnes compétences en programmation Python et bash.

  • Maîtrise des outils CI/CD populaires (par exemple, GitLab CI, Jenkins), git, Linux y compris les pratiques de gestion, la versioning, le branching, le merging et le tagging, et expérience avec les outils et processus de gestion des versions.

  • Connaissance de Docker, des services REST API, de Kubernetes, d'ElasticSearch, de HashiCorp Vault et d'Ansible

  • Expérience de travail avec les fournisseurs de Cloud (AWS, OCI, GCP)

  • Forte expérience dans la mise en place, la maintenance et l'automatisation des systèmes d'intégration continue. Connaissance de l'amour des pratiques DevOps/MLOps. Familiarité avec des techniques modernes de CI/CD, GitOps et l'infrastructure en tant que code (IaC).

  • Compréhension basique des concepts d'entraînement et d'inférence ML/DL

  • Compréhension approfondie des principes de test logiciel, y compris les tests unitaires, les tests d'intégration et les tests de bout en bout, et expérience avec les cadres et outils de test automatisés.

  • Bonnes habitudes de communication et de documentation. Souci du détail avec d'excellentes capacités de communication et de documentation.

Comment se démarquer de la foule :

  • Expérience pratique dans la création de pipelines d'intégration, de distribution et de déploiement pour les produits ML/DL et/ou expérience de travail avec des modèles et/ou services d'apprentissage profond.

  • Familiarité avec les systèmes de calcul distribué à grande échelle et les plateformes cloud ou expérience avec les grappes de calcul basées sur HPC et les solutions de planification comme Slurm.

  • Expérience avérée dans la fourniture de solutions à des clients. Compréhension approfondie des déploiements à grande échelle et/ou contribution en amont dans des projets open source

  • Des certifications pertinentes (par exemple, AWS Certified DevOps Engineer, Linux RedHat, Oracle, …) sont un plus

NVIDIA compte comme l'un des employeurs les plus prisés du monde de la technologie. Nous avons des personnes parmi les plus brillantes et les plus talentueuses du monde qui travaillent pour nous. Si vous êtes créatif et autonome, nous voulons avoir de vos nouvelles!

La fourchette de salaire de base est de 144 000 USD - 270 250 USD. Votre salaire de base sera déterminé en fonction de votre localisation, expérience et du salaire des employés occupant des postes similaires.

Vous serez également éligible pour des actions et des avantages. NVIDIA accepte les candidatures en continu.