Machine Learning Engineer, Training

Job expired!

Waymo, una empresa pionera en tecnología de conducción autónoma, tiene la misión de convertirse en el conductor más confiable. Originada como el Proyecto de Auto Autónomo de Google en 2009, Waymo se ha dedicado a desarrollar El Conductor Más Experimentado del Mundo™—el Waymo Driver—para mejorar la movilidad y salvar miles de vidas perdidas en incidentes de tráfico. El Waymo Driver impulsa Waymo One, un servicio de transporte completamente autónomo, y es adaptable a varias plataformas de vehículos y casos de uso. Con más de un millón de viajes solo con pasajeros, el Conductor de Waymo ha conducido autónomamente decenas de millones de millas en vías públicas y ha completado decenas de miles de millones de millas en simulación en más de 13 estados de EE. UU.

El Equipo de Infraestructura de ML de Waymo colabora estrechamente con los equipos de Investigación y Producción para avanzar los modelos en Percepción y Planificación, esenciales para nuestro software de conducción autónoma. Nuestras soluciones, desarrolladas en estrecha colaboración con equipos de Google, apoyan todo el ciclo de desarrollo de modelos, especializándose en escalar modelos y abordar desafíos únicos de ML para la conducción autónoma.

Creemos bibliotecas y herramientas para mejorar TensorFlow y JAX, abordando desafíos de escalabilidad, confiabilidad y rendimiento. Las áreas clave de enfoque incluyen:

Entrenamiento a escala y mejorar la eficiencia del acelerador de ML
Ajuste fino de LLMs multimodales para tareas de conducción autónoma
Descubrir hiper-parámetros y reentrenar redes neuronales
Computar métricas de validación fiables y sin ruido
Validar DNNs recién entrenados en la pila de software a bordo

En este rol híbrido, reportando al Gerente Técnico Líder de Entrenamiento de Machine Learning, usted:

Desarrollará infraestructura para entrenamiento distribuido, incluyendo programación de trabajos, gestión de recursos, distribución de datos y sincronización de modelos

Implementará automatización para aprovisionamiento, despliegue, monitoreo y escalado de infraestructura de entrenamiento
Monitoreará la salud del sistema, diagnosticará y solucionará problemas, y realizará mantenimiento rutinario
Identificará cuellos de botella de rendimiento y oportunidades de optimización
Mejorará la experiencia del desarrollador y el rendimiento de nuestro marco escalable de ML

Requerido

Licenciatura en Ciencias de la Computación, Ingeniería, o un campo relacionado, o 2+ años de experiencia equivalente
Experiencia con principios de sistemas distribuidos y construcción de sistemas distribuidos para entornos de producción
Competencia en Python o C++
Experiencia con marcos de Machine Learning (por ejemplo, TensorFlow, PyTorch) y algoritmos de entrenamiento distribuido
Capacidad para depurar problemas complejos de sistemas distribuidos
Excelentes habilidades de comunicación para actualizar y resolver problemas con clientes y socios

Preferido

Experiencia con herramientas de perfilado de aceleradores de ML
Familiaridad con plataformas en la nube (por ejemplo, AWS, Azure, GCP) y gestión de sistemas distribuidos en entornos de nube
Conocimiento de algoritmos de optimización y aprendizaje profundo

El rango salarial base esperado para esta posición de tiempo completo en ubicaciones de EE. UU. es de $158,000 a $200,000 USD. La paga inicial real dependerá de factores relacionados con el trabajo, como ubicación, experiencia, educación y habilidades. Durante el proceso de contratación, el reclutador puede proporcionar rangos salariales específicos basados en la ubicación del rol o si el rol puede realizarse de forma remota, según su ubicación preferida.

Waymo también ofrece participación en su programa discrecional de bonificación anual, plan de incentivos de acciones y un generoso programa de beneficios, sujeto a requisitos de elegibilidad.