Machine Learning Engineer, Training

Job expired!

Waymo, une entreprise pionnière en technologie de conduite autonome, a pour mission de devenir le conducteur le plus fiable. Originaire du projet de voiture autonome de Google en 2009, Waymo s'est consacrée au développement du conducteur le plus expérimenté au monde™—le Waymo Driver—pour améliorer la mobilité et sauver des milliers de vies perdues dans des accidents de la route. Le Waymo Driver alimente Waymo One, un service de covoiturage entièrement autonome, et est adaptable à diverses plates-formes de véhicules et cas d'utilisation. Avec plus d'un million de trajets sans chauffeur, le conducteur Waymo a parcouru de manière autonome des dizaines de millions de kilomètres sur les routes publiques et a terminé des dizaines de milliards de simulations dans plus de 13 États américains.

L'équipe d'infrastructure ML de Waymo collabore étroitement avec les équipes de recherche et de production pour faire progresser les modèles en perception et planification, essentiels à notre logiciel de conduite autonome. Nos solutions, développées en partenariat étroit avec les équipes de Google, soutiennent tout le cycle de développement des modèles, en se spécialisant dans la mise à l'échelle des modèles et en abordant les défis uniques de la ML pour la conduite autonome.

Nous créons des bibliothèques et des outils pour améliorer TensorFlow et JAX, en nous attaquant aux défis de scalabilité, fiabilité et performance. Les domaines clés incluent :

  • Formation à grande échelle et amélioration de l'efficacité des accélérateurs de ML
  • Ajustement fin des LLM multimodaux pour les tâches de conduite autonome
  • Découverte des hyper-paramètres et réapprentissage des réseaux neuronaux
  • Calcul des métriques de validation fiables et sans bruit
  • Validation des nouveaux réseaux de neurones profonds (DNN) formés dans la pile logicielle embarquée

Dans ce rôle hybride, relevant du directeur d'équipe technique de la formation en apprentissage automatique, vous allez :

  • Développer l'infrastructure pour la formation distribuée, y compris la planification des tâches, la gestion des ressources, la distribution des données et la synchronisation des modèles
  • Mettre en œuvre l'automatisation pour le provisionnement, le déploiement, la surveillance et la mise à l'échelle de l'infrastructure de formation
  • Surveiller la santé du système, diagnostiquer et résoudre les problèmes, et effectuer la maintenance de routine
  • Identifier les goulets d'étranglement de performance et les opportunités d'optimisation
  • Améliorer l'expérience développeur et la performance de notre cadre ML évolutif

Requis

  • Diplôme en informatique, en ingénierie ou dans un domaine connexe, ou 2+ années d'expérience équivalente
  • Expérience avec les principes des systèmes distribués et la construction de systèmes distribués pour des environnements de production
  • Compétent en Python ou C++
  • Expérience avec les cadres d'apprentissage automatique (ML) (par exemple, TensorFlow, PyTorch) et les algorithmes de formation distribuée
  • Capacité à déboguer des problèmes complexes de systèmes distribués
  • Excellentes compétences en communication pour mettre à jour et résoudre des problèmes avec les clients et partenaires

Préféré

  • Expérience avec les outils de profilage des accélérateurs de ML
  • Familiarité avec les plateformes cloud (par exemple, AWS, Azure, GCP) et la gestion des systèmes distribués dans les environnements cloud
  • Connaissance des algorithmes d'optimisation et d'apprentissage profond

La fourchette salariale de base prévue pour ce poste à plein temps dans les emplacements aux États-Unis est de 158 000 à 200 000 USD. La rémunération de départ réelle dépendra de facteurs liés à l'emploi tels que l'emplacement, l'expérience, l'éducation et les compétences. Pendant le processus d'embauche, le recruteur peut fournir des fourchettes salariales spécifiques en fonction de l'emplacement du rôle ou si le rôle peut être exercé à distance, selon votre emplacement