Machine Learning Engineer - Inference (Accelerated AI)

Job expired!

Together AI recherche activement un Ingénieur en Apprentissage Machine talentueux pour rejoindre notre équipe Inference Engine dynamique. Ce rôle crucial se concentre sur l'optimisation et l'amélioration des performances de nos systèmes d'inférence AI, en tirant parti des modèles de langue de pointe pour garantir l'efficacité et l'évolutivité.

Si vous êtes passionné par l'inférence AI, compétent avec PyTorch et habile à développer des systèmes haute performance, nous voulons vous entendre. Ce poste offre une opportunité exceptionnelle de collaborer avec des chercheurs et des ingénieurs AI de premier plan pour créer des solutions AI de pointe. Venez façonner l'avenir de l'IA avec Together AI !

  • Concevoir et développer des systèmes de production avancés qui alimentent le moteur d'inférence de Together AI, en garantissant la fiabilité et les performances à grande échelle.
  • Optimiser les services d'inférence en temps réel pour des applications AI étendues.
  • Collaborer avec des chercheurs, ingénieurs, chefs de produit et designers pour introduire nouvelles fonctionnalités et capacités de recherche.
  • Mener des revues de design et de code approfondies pour maintenir les normes de qualité les plus élevées.
  • Créer des services, des outils et une documentation développeur complète pour soutenir le moteur d'inférence.
  • Mettre en œuvre des systèmes robustes et tolérants aux pannes pour l'ingestion et le traitement des données.
  • Un minimum de 3 ans d'expérience dans l'écriture de code de production performant, bien testé et de qualité.
  • Maîtrise de Python et PyTorch.
  • Expérience démontrée dans la construction de bibliothèques et d'outils haute performance.
  • Compréhension exceptionnelle des concepts de bas niveau des systèmes d'exploitation, y compris le multitraitement, la gestion de la mémoire, les réseaux, le stockage, la performance et la scalabilité.
  • Connaissance des systèmes d'inférence AI existants tels que TGI, vLLM, TensorRT-LLM, Optimum.
  • Familiarité avec les techniques d'inférence AI, comme le décodage spéculatif.
  • Expérience en programmation CUDA/Triton.
  • Un atout supplémentaire : familiarité avec Rust, Cython et les compilateurs.

Together AI est une entreprise d'intelligence artificielle pionnière, motivée par la recherche. Nous nous engageons à rendre nos systèmes AI ouverts et transparents pour favoriser l'innovation et générer les meilleurs résultats pour la société. Notre mission est de réduire significativement le coût des systèmes AI modernes grâce à la co-conception de logiciels, de matériel, d'algorithmes et de modèles.

Nous avons contribué à la recherche open-source de pointe, modèles et ensembles de données pour faire avancer la frontière de l'intelligence artificielle. Notre équipe a joué un rôle clé dans des percées technologiques telles que FlashAttention, Hyena, FlexGen et RedPajama. Rejoignez notre groupe passionné de chercheurs et d'ingénieurs dans notre voyage pour construire l'infrastructure AI de prochaine génération.

Nous offrons un package de compensation compétitif, incluant des actions, une assurance santé, et d'autres avantages impressionnants. Le salaire de base aux États-Unis pour ce poste à temps plein se situe entre 160 000 $ et 220 000 $, plus actions et avantages. Nos tranches de salaire sont déterminées par la localisation, le niveau, et le rôle, avec une compensation individuelle basée sur l'expérience, les compétences et les connaissances liées au travail.

Together AI est fier d'être un employeur garantissant l'égalité des chances, offrant des opportunités d'emploi égales à tous, indépendamment de la race, de la couleur, de l'ascendance, de la religion, du sexe, de l'origine nationale, de l'orientation sexuelle, de l'âge, de la citoyenneté, de l'état matrimonial, du handicap, de l'identité de genre, du statut de vétéran, et plus encore.