Distributed ML Systems Engineer (Accelerated AI)

Job expired!

¿Te apasiona diseñar sistemas de aprendizaje automático escalables? Together AI está buscando un talentoso Ingeniero de Sistemas de ML Distribuidos para desarrollar y optimizar sistemas distribuidos a gran escala y tolerantes a fallos. Sé parte de un equipo revolucionario que está dando forma al futuro de la IA. Trabaja estrechamente con nuestros talentosos investigadores y equipos de infraestructura para garantizar sistemas sólidos y eficientes.

  • Diseñar y construir sistemas de aprendizaje automático distribuidos a gran escala que sean tolerantes a fallos y de alto rendimiento.
  • Desarrollar y optimizar marcos de procesamiento distribuido y sistemas de almacenamiento.
  • Colaborar con investigadores, ingenieros y gerentes de producto para integrar sistemas de aprendizaje automático en nuestra infraestructura.
  • Realizar revisiones de arquitectura y diseño para garantizar las mejores prácticas en el diseño de sistemas.
  • Implementar sistemas robustos de monitoreo y registro para asegurar la salud y el rendimiento de nuestros sistemas de ML.
  • Más de 3 años de experiencia en la construcción de sistemas distribuidos a gran escala, tolerantes a fallos y de alto rendimiento.
  • Fuertes habilidades de programación en uno o más de los siguientes lenguajes: Python, Go, Rust o C/C++.
  • Excelente comprensión de los conceptos de sistemas operativos de bajo nivel, incluyendo multihilos, gestión de memoria, redes y almacenamiento, rendimiento y escalabilidad.
  • Experiencia con plataformas de computación en la nube (AWS, GCP, Azure, etc.) y con infraestructura a gran escala.
  • Fuertes habilidades para resolver problemas y capacidad para trabajar en un entorno de ritmo rápido.
  • Preferido: Experiencia con Kubernetes.
  • Preferido: Experiencia con Pytorch.

Together AI es una compañía de inteligencia artificial impulsada por la investigación, dedicada a crear sistemas de IA abiertos y transparentes. Estamos en una misión para reducir significativamente el costo de los sistemas modernos de IA mediante el co-diseño de software, hardware, algoritmos y modelos. Nuestro equipo ha impulsado avances en tecnologías tales como FlashAttention, Hyena, FlexGen y RedPajama. Únete a nuestro apasionado grupo de investigadores e ingenieros en la construcción de infraestructura de IA de próxima generación.

Ofrecemos una compensación competitiva, acciones de inicio, seguro de salud y otros beneficios. El rango de salario base en EE.UU. para este puesto de tiempo completo es de $160,000 - $220,000 más acciones y beneficios. Nuestros rangos salariales se determinan por ubicación, nivel y rol. La compensación individual se basará en la experiencia, habilidades y conocimientos relacionados con el trabajo.

Together AI se enorgullece de ser un empleador que ofrece igualdad de oportunidades, ofreciendo oportunidades de empleo a todos, independientemente de la raza, color, ascendencia, religión, sexo, origen nacional, orientación sexual, edad, ciudadanía, estado civil, discapacidad, identidad de género, estatus de veterano, y más.

Nombre de la empresa: Together AI
Título del trabajo: Ingeniero de Sistemas de ML Distribuidos (IA Acelerada)