À propos de la Stabilité :
Stability AI est une entreprise d'intelligence artificielle open source, guidée par une communauté et une mission, qui se soucie profondément des implications et des applications concrètes. Nos avancées les plus significatives proviennent de notre diversité dans le travail à travers plusieurs équipes et disciplines. Nous n'avons pas peur de défier les normes établies et d'explorer la créativité. Nous sommes motivés pour générer des idées révolutionnaires et les transformer en solutions concrètes. Nos communautés vibrantes se composent d'experts, de leaders et de partenaires à travers le monde qui développent des modèles d'IA ouverts de pointe pour l'Image, le Langage, l'Audio, la Vidéo, la 3D et la Biologie.
À propos du rôle :
Nous recherchons un ingénieur ML Ops talentueux avec une forte concentration sur l'informatique haute performance (HPC) pour rejoindre notre équipe. La principale responsabilité de ce rôle est de faire le lien efficace entre nos équipes d'ingénieurs, en assurant une intégration et un fonctionnement fluides des modèles d'apprentissage automatique au sein d'un environnement de HPC. Le candidat idéal supervisera le déploiement des outils de service et de formation pour les modèles d'apprentissage profond, ainsi que la gestion des ajustements nécessaires dans l'infrastructure d'hébergement pour optimiser les performances.
Responsabilités :
- Collaborez étroitement avec les équipes d'ingénierie pour faciliter l'interaction et l'intégration fluides des modèles d'apprentissage automatique et de leur entraînement dans l'environnement HPC.
- Gérer et optimiser le déploiement des outils d'entraînement et d'inférence, en veillant à ce qu'ils fonctionnent efficacement dans l'infrastructure désignée.
- Implémentation des changements nécessaires dans l'infrastructure d'hébergement pour répondre aux exigences spécifiques des modèles ML, en veillant à ce qu'ils fonctionnent efficacement dans les environnements cloud et HPC.
- Favoriser le fonctionnement harmonieux des services cloud et des systèmes HPC, leur permettant d'opérer indépendamment sans se perturber mutuellement.
- Assurer l'intégration réussie des conteneurs d'inférence et des ressources, permettant des opérations simultanées de manière unifiée.
- S'engager activement dans l'optimisation des performances en Deep Learning, exploitant une compréhension approfondie des compilateurs et de leur rôle dans l'optimisation de l'efficacité.
- Fournir une expertise technique en Linux, SLURM, et une expérience avec l'infrastructure AWS ou GCP, en optimisant l'environnement pour les opérations ML.
- Collaborer avec l'équipe plus large pour concevoir, construire et maintenir des systèmes efficaces et évolutifs pour soutenir le déploiement et l'exécution des modèles d'apprentissage automatique.
- Démontrer une maîtrise des langages de codage tels que Python, C++, et TypeScript, en assurant le développement et la gestion de divers outils et intégrations.
Exigences :
- Compétence en langages de programmation tels que Python, C/C++ et TypeScript
- Expérience de travail dans des environnements basés sur le cloud tels que AWS, GCP, Cloudflare, etc.
- Expérience avec les outils de gestion de grappes HPC comme Slurm et dans des systèmes comme Linux
- Familiarité avec les GPU et autres accélérateurs comme Gaudi2 et TPU
- Solide expérience dans la gestion et la coordination d'équipes interfonctionnelles dans un environnement au rythme rapide.
- Capacité à résoudre des problèmes techniques complexes dans un contexte HPC, en assurant le fonctionnement continu et sans heurts des modèles ML.
- Expérience avérée dans la conception et la mise en œuvre de solutions pour une disponibilité élevée, une scalabilité et des performances.
- Solides compétences en communication et capacité à expliquer des concepts techniques complexes à des personnes non techniques.
- Familiarité avec les méthodologies Agile, permettant une adaptation rapide aux exigences de projet en constante évolution.
Egalité des chances d'emploi :
Nous offrons l'égalité des chances en matière d'emploi et ne pratiquons pas la discrimination fondée sur la race, la religion, l'origine nationale, le sexe, l'orientation sexuelle, l'âge, le statut d'ancien combattant, le handicap ou d'autres statuts protégés par la loi.