Ingeniero de Operaciones ML, HPC

  • Full Time
Job expired!

Sobre Stability:

Stability AI es una empresa de inteligencia artificial de código abierto impulsada por la comunidad y la misión, que se preocupa profundamente por las implicaciones y aplicaciones en el mundo real. Nuestros avances más considerables provienen de nuestra diversidad al trabajar en múltiples equipos y disciplinas. No tememos ir en contra de las normas establecidas y explorar la creatividad. Estamos motivados para generar ideas innovadoras y convertirlas en soluciones tangibles. Nuestras vibrantes comunidades están compuestas por expertos, líderes y socios en todo el mundo que están desarrollando modelos de IA abiertos de vanguardia para Imagen, Lenguaje, Audio, Video, 3D y Biología.

Sobre el rol:

Estamos buscando un talentoso ingeniero de operaciones de ML con un fuerte enfoque en la Computación de Alto Rendimiento (HPC) para unirse a nuestro equipo. La responsabilidad principal de este rol es efectivamente unir a nuestros equipos de ingeniería, garantizando una integración y operación fluida de los modelos de aprendizaje automático dentro de un entorno de Computación de Alto Rendimiento. El candidato ideal supervisará la implementación de herramientas de entrenamiento y serving para modelos de aprendizaje profundo, junto con la gestión de los ajustes necesarios en la infraestructura de alojamiento para optimizar el rendimiento.

Responsabilidades:

  • Colaborar estrechamente con los equipos de ingeniería para facilitar la interacción e integración fluidas del servicio y entrenamiento de modelos de aprendizaje automático dentro del entorno de HPC.
  • Administrar y optimizar la implementación de herramientas de entrenamiento e inferencia, asegurando que funcionen de manera eficiente dentro de la infraestructura designada.
  • Implementar los cambios necesarios en la infraestructura de alojamiento para adaptarse a los requisitos específicos de los modelos de ML, garantizando que funcionen de manera efectiva tanto en la nube como en entornos de HPC.
  • Habilitar el funcionamiento armonioso de los servicios en la nube y los sistemas de HPC, permitiendo que operen de forma independiente sin afectar el uno al otro. 
  • Garantizar la integración exitosa de contenedores de inferencia y recursos, permitiendo operaciones simultáneas de manera unificada.
  • Participar activamente en la optimización del rendimiento en el aprendizaje profundo, aprovechando una profunda comprensión de los compiladores y su rol en maximizar la eficiencia.
  • Proporcionar experiencia técnica en Linux, SLURM y experiencia con la infraestructura AWS o GCP, optimizando el entorno para operaciones de ML.
  • Colaborar con el equipo más amplio para diseñar, construir y mantener sistemas eficientes y escalables para soportar el despliegue y la ejecución de modelos de aprendizaje automático.
  • Demostrar competencia en lenguajes de programación como Python, C++, y TypeScript, asegurando el desarrollo y manejo de varias herramientas e integraciones.

Requisitos:

  • Competencia en lenguajes de programación como Python, C/C++ y TypeScript
  • Experiencia trabajando en entornos basados en la nube como AWS, GCP, Cloudflare, etc. 
  • Experiencia con herramientas de gestión de clústeres HPC como Slurm y en sistemas como Linux
  • Familiaridad con GPU y otros aceleradores como Gaudi2 y TPU
  • Sólida experiencia en la gestión y coordinación con equipos interfuncionales en un entorno de ritmo rápido.
  • Capacidad para solucionar y resolver problemas técnicos complejos en un entorno HPC, asegurando el funcionamiento continuo de los modelos de ML.
  • Historial comprobado en el diseño e implementación de soluciones para alta disponibilidad, escalabilidad y rendimiento.
  • Fuertes habilidades de comunicación y la capacidad de transmitir conceptos técnicos complejos a personas sin conocimientos técnicos.
  • Familiaridad con las metodologías Agile, lo que permite una rápida adaptación a los requisitos del proyecto en evolución.

Oportunidad de empleo igualitario:

Somos un empleador que ofrece igualdad de oportunidades y no discriminamos en base a raza, religión, origen nacional, género, orientación sexual, edad, estado de veterano, discapacidad u otros estados legalmente protegidos.