Ingeniero Senior de Plataforma ML, IA - MLOps

  • Full Time
Job expired!

Únete al equipo que desarrolla software que será utilizado por todo el mundo de la IA. Colabora con ingenieros de software de primera clase para implementar un conjunto de herramientas a gran escala que pruebe modelos y marcos de aprendizaje profundo en las computadoras más poderosas. Se requiere la capacidad de trabajar en un entorno multifacético y dinámico, así como fuertes habilidades sociales. En este puesto estarás interactuando con socios internos, usuarios y miembros de la comunidad de código abierto para implementar soluciones para la construcción, prueba, integración y liberación de los Servicios IA de NVIDIA y Marcos de Aprendizaje Profundo en los clusters de GPU más potentes y de calidad empresarial, capaces de cientos de Peta FLOPS. Este papel abarca varios productos como PyTorch, TensorFlow, JAX, PaddlePaddle. Trabajarás con equipos de ingeniería internos para desplegar y hacer operativos modelos y servicios de IA a escala, impulsando la adopción de soluciones de Aprendizaje Automático y Aprendizaje Profundo de extremo a extremo en la nube y en las premisas.

Estamos buscando individuos apasionados para ayudarnos a escalar nuestros servicios de IA y aprendizaje profundo, plataformas, modelos y herramientas internas. Serás responsable de implementar y mantener las prácticas, herramientas e infraestructura de DevOps/MLOps, que permitan a nuestros equipos entregar software de alta calidad de manera confiable y eficiente, garantizando una gestión y despliegue de liberaciones sin problemas. ¿Estás listo para este desafío?

Lo que harás:

  • Desarrollar, mantener y mejorar las herramientas de CI/CD para el despliegue en las premisas y en la nube de nuestro software, habilitar sistemas de construcción sofisticados en múltiples plataformas y llevar una ingeniería de liberación de clase mundial al proceso de despliegue en la plataforma y la nube de NVIDIA.

  • Habilitar una plataforma de prueba y evaluación comparativa de Aprendizaje Profundo de autoservicio utilizando herramientas estándar de la industria (por ejemplo: Gitlab, GitHub, Jenkins, Docker, Bash, …) y herramientas propietarias de NVIDIA. Liderar las mejores prácticas y metodologías para la construcción, prueba y liberación de software de DL y apoyar a los usuarios de la plataforma.

  • Monitorear y corregir los pipelines de desarrollo y despliegue de software, identificando y resolviendo problemas relacionados con fallas en la construcción, fallas en las pruebas, calidad del código y rendimiento, en colaboración con los equipos de desarrollo, operaciones y aseguramiento de la calidad.

  • Preparar documentación para los enfoques propuestos, políticas, formatos de datos, casos de prueba y los resultados esperados dentro del alcance de tus proyectos. Documentar y evangelizar sobre ellos.

  • Colaborar con los equipos de desarrollo, operaciones y aseguramiento de la calidad para establecer y mantener prácticas, herramientas e infraestructuras eficientes y fiables de DevOps, que permitan la integración continua, la entrega continua (CI/CD) y una gestión eficiente de liberación de software.

Lo que necesitamos ver:

  • Grado de BSc o MS en Ciencias de la Computación, Arquitectura de Computadoras o campo técnico relacionado, o experiencia equivalente.

  • 5+ años de experiencia laboral en ingeniería de plataforma/ MLOps/DevOps

  • Muy buenas habilidades de programación en Python y bash.

  • Proficiencia con populares herramientas de CI/CD (por ej., GitLab CI, Jenkins), git, Linux incluyendo prácticas de gestión, versionado, creación de ramas, fusión, y etiquetado, y experiencia con herramientas y procesos de gestión de lanzamientos.

  • Conocimiento de Docker, servicios REST API, Kubernetes, ElasticSearch, HashiCorp Vault y Ansible

  • Experiencia trabajando con Proveedores de Cloud (AWS, OCI, GCP)

  • Amplia experiencia en la configuración, mantenimiento y automatización de sistemas de integración continua. Conocimiento y pasión por las prácticas de DevOps/MLOps. Proficiencia en técnicas modernas de CI/CD, GitOps e Infraestructura como Código (IaC)

  • Comprensión básica de los conceptos de entrenamiento e inferencia ML/DL

  • Sólida comprensión de los principios de las pruebas de software, incluyendo pruebas unitarias, de integración y de extremo a extremo, y experiencia con marcos y herramientas de pruebas automatizadas.

  • Buenas costumbres de comunicación y documentación. Orientado al detalle con grandes habilidades de comunicación y documentación

Maneras de destacarte del resto:

  • Experiencia práctica en la creación de pipelines de integración, entrega y despliegue para productos ML/DL y/o experiencia trabajando con modelos y/o servicios de Aprendizaje Profundo

  • Familiaridad con sistemas de computación distribuida a gran escala y plataformas en la nube o experiencia con clústers de cómputo basados en HPC y soluciones de planificación como Slurm

  • Historial comprobado de entrega de soluciones a los clientes. Comprensión profunda de los despliegues a gran escala y/o contribución upstream en proyectos de código abierto

  • Certificaciones relevantes (por ej., Ingeniero DevOps Certificado por AWS, Linux RedHAt, Oracle, …) son un plus

NVIDIA es considerada ampliamente como uno de los empleadores más deseables del mundo de la tecnología. Contamos con algunas de las personas más brillantes y talentosas del mundo trabajando para nosotros. ¡Si eres creativo y autónomo, queremos oír de ti!

El rango de salario base está entre 144,000 USD - 270,250 USD. Tu salario base se determinará en función de tu ubicación, experiencia, y el salario de empleados en posiciones similares.

También tendrás derecho a acciones y ventajas beneficios. NVIDIA acepta solicitudes de forma continua.