Machine Learning Engineer, Training

Job expired!

Waymo, новаторская компания в сфере технологии автономного вождения, стремится стать самым надежным водителем. Начавшись как проект Google по созданию самоуправляемого автомобиля в 2009 году, Waymo предана разработке The World's Most Experienced Driver™—Waymo Driver—для повышения мобильности и спасения тысяч жизней, теряемых из-за дорожных происшествий. Waymo Driver обеспечивает Waymo One, полностью автономную службу вызова такси, и адаптируется к различным платформам транспортных средств и сценариям использования. С более чем миллионом поездок без пассажиров, Waymo Driver автономно проехал десятки миллионов миль по дорогам общего пользования и завершил десятки миллиардов в симуляции в более чем 13 штатах США.

Команда ML Инфраструктуры Waymo тесно сотрудничает как с Исследовательскими, так и с Производственными командами для совершенствования моделей в области Восприятия и Планирования, которые необходимы для нашего программного обеспечения для автономного вождения. Наши решения, разработанные в тесном сотрудничестве с командами Google, поддерживают весь жизненный цикл разработки моделей, специализируясь на масштабируемости моделей и решении уникальных задач машинного обучения для автономного вождения.

Мы создаем библиотеки и инструменты для улучшения TensorFlow и JAX, решая проблемы масштабируемости, надежности и производительности. Ключевые области фокуса включают:

  • Обучение в больших масштабах и повышение эффективности ML-ускорителей
  • Тонкая настройка мультизадачных LLMs для задач автономного вождения
  • Поиск гиперпараметров и переобучение нейронных сетей
  • Вычисление надежных и безшумных метрик валидации
  • Валидация вновь обученных DNNs в бортовом программном стеке

В этой гибридной роли, подчиняясь Техническому Руководителю по Обучению Машинного Обучения, вы будете:

  • Разрабатывать инфраструктуру для распределенного обучения, включая планирование задач, управление ресурсами, распределение данных и синхронизацию моделей
  • Реализовывать автоматизацию для подготовки, развертывания, мониторинга и масштабирования инфраструктуры обучения
  • Следить за состоянием системы, диагностировать и устранять проблемы, а также выполнять регулярное обслуживание
  • Выявлять узкие места производительности и возможности оптимизации
  • Улучшать опыт разработчиков и производительность нашей масштабируемой ML архитектуры

Требования

  • Степень бакалавра в области компьютерных наук, инжиниринга или родственной области, либо 2+ года аналогичного опыта
  • Опыт работы с принципами распределенных систем и построением распределенных систем для производственных сред
  • Умение программировать на Python или C++
  • Опыт работы с фреймворками для машинного обучения (например, TensorFlow, PyTorch) и алгоритмами распределенного обучения
  • Способность устранять проблемы сложных распределенных систем
  • Отличные навыки общения для обновления и решения проблем с клиентами и партнерами

Желательные

  • Опыт работы с инструментами профилирования ML-ускорителей
  • Знание облачных платформ (например, AWS, Azure, GCP) и управления распределенными системами в облачных средах
  • Знание оптимизации и алгоритмов глубокого обучения

Ожидаемый базовый диапазон заработной платы для этой полной ставки по всем местоположениям в США составляет $158,000—$200,000 USD. Фактическая начальная зарплата будет зависеть от факторов, связанных с работой, таких как местоположение, опыт, образование и навыки. В процессе найма рекрутер может предоставить конкретные диапазоны зарплаты в зависимости от местоположения роли или если роль может выполняться удаленно, в соответствии с вашими предпочт