Machine Learning Engineer, Training

Job expired!

Waymo, піонерна компанія в галузі технологій автономного водіння, має місію стати найбільш надійним водієм. Почавшись як проект Google Self-Driving Car у 2009 році, Waymo займається розробкою Найдосвідченішого водія у світі™ — Waymo Driver, щоб покращити мобільність і врятувати тисячі життів, втрачених через дорожні інциденти. Waymo Driver керує Waymo One, повністю автономною службою виклику таксі, і адаптується до різних платформ транспортних засобів і випадків використання. З понад мільйоном поїздок без водія, водій Waymo автономно проїхав десятки мільйонів миль дорогами загального користування та виконав десятки мільярдів поїздок у симуляціях у 13+ штатах США.

Команда Waymo ML Infrastructure тісно співпрацює з командами досліджень і виробництва для покращення моделей у галузях розпізнавання та планування, що є важливими для нашого програмного забезпечення автономного водіння. Наші рішення, розроблені в тісному партнерстві з командами Google, підтримують весь цикл розробки моделей, спеціалізуючись на масштабуванні моделей та вирішенні унікальних завдань ML для автономного водіння.

Ми створюємо бібліотеки та інструменти для покращення TensorFlow і JAX, вирішуючи проблеми масштабованості, надійності та продуктивності. Основні сфери зосередження включають:

  • Масштабоване тренування та покращення ефективності ML-акселераторів
  • Тонке налаштування багатомодальних LLM для завдань автономного водіння
  • Виявлення гіперпараметрів і повторне тренування нейронних мереж
  • Обчислення надійних і безшумних показників валідації
  • Валідація нових DNN у внутрішньому програмному стеку

У цій гібридній ролі, підпорядковуючись технічному керівнику з навчання машинного навчання, ви будете:

  • Розробляти інфраструктуру для розподіленого навчання, включаючи планування завдань, управління ресурсами, розподіл даних і синхронізацію моделей
  • Впроваджувати автоматизацію для постачання, розгортання, моніторингу та масштабування інфраструктури для навчання
  • Моніторити здоров'я системи, діагностувати та вирішувати проблеми, проводити рутинне обслуговування
  • Визначати вузькі місця продуктивності та можливості для оптимізації
  • Покращувати досвід розробників і продуктивність нашої масштабованої ML-інфраструктури

Обов'язкові

  • Ступінь бакалавра з комп'ютерних наук, інженерії або суміжної галузі, або 2+ років відповідного досвіду
  • Досвід з принципами розподілених систем і побудови розподілених систем для виробничих середовищ
  • Володіння Python або C++
  • Досвід роботи з фреймворками машинного навчання (наприклад, TensorFlow, PyTorch) та розподіленими алгоритмами навчання
  • Здатність налагоджувати складні проблеми розподілених систем
  • Відмінні комунікативні навички для оновлення та вирішення проблем із клієнтами та партнерами

Бажані

  • Досвід роботи з інструментами профілювання