HPC Engineer, Machine Learning Infrastructure - EMEA Remote

Job expired!

¡Bienvenido a Hugging Face! Estamos en una misión para avanzar en el Aprendizaje Automático y hacerlo más accesible para todos. Nuestro viaje implica contribuir al crecimiento de la tecnología para un futuro mejor.

Hemos creado la biblioteca de código abierto de modelos pre-entrenados de más rápido crecimiento en el mundo. Con más de 1 millón de modelos y más de 320K estrellas en GitHub, la tecnología de Hugging Face está siendo utilizada en producción por más de 15,000 empresas, incluyendo organizaciones líderes en IA como Google, Elastic, Salesforce, Grammarly y NASA.

Estamos buscando un Ingeniero de HPC experimentado para desarrollar y escalar nuestro gran clúster distribuido. El candidato ideal tendrá una sólida experiencia en la provisión de grandes clústeres de computación para flujos de trabajo de IA y guiará a los equipos para crear mejores prácticas para la fiabilidad y la escalabilidad.

  • Diseñar, desarrollar, desplegar y mantener infraestructura confiable y escalable para cargas de trabajo de entrenamiento eficientes.
  • Gestionar grandes clústeres de computación para el entrenamiento y desarrollo de IA.
  • Crear herramientas e infraestructura para abstraer la computación y el almacenamiento en flujos de trabajo de ML.
  • Medir y optimizar el rendimiento del sistema.
  • Monitorear y resolver problemas de infraestructura para asegurar alta disponibilidad y rendimiento de las cargas de trabajo de IA.
  • Estar al tanto de las últimas tecnologías en infraestructuras de IA y recomendar mejoras.
  • Colaborar con equipos de ingeniería de software de IA para asegurar que la infraestructura soporte los requisitos del sistema.
  • Proporcionar soporte operativo principal e ingeniería a través de múltiples equipos.
  • Más de 7 años de experiencia en un rol de DevOps o Ingeniero de Infraestructura, enfocado en infraestructura de aprendizaje automático y grandes clústeres de GPU.
  • Experiencia con proveedores de nube como AWS, GCP, marcos de infraestrucura como código y herramientas de observabilidad.
  • Competencia con la pila científica de Python y Pytorch.
  • Experiencia con estructuras de datos, modelado de datos y gestión de bases de datos, incluyendo sistemas de almacenamiento de objetos y archivos.
  • Fuertes habilidades de comunicación, colaboración y documentación.
  • Familiaridad con Linux, Git, contenedores, redes y herramientas de línea de comandos.
  • Fuertes habilidades de programación en Python, Golang y/o Rust.

Si eres un apasionado Ingeniero HPC con un profundo interés en la IA y prosperas en un entorno desafiante e innovador, queremos saber de ti. Únete a nuestro equipo para ayudar a avanzar en las tecnologías de IA mientras trabajas junto a profesionales talentosos en un entorno colaborativo y estimulante.

Estamos comprometidos en construir un lugar de trabajo diverso e inclusivo. Hugging Face es un empleador que ofrece igualdad de oportunidades y celebra la diversidad. No discriminamos por raza, religión, color, origen nacional, género, orientación sexual, edad, estado civil, estado de veterano o estado de discapacidad.

En Hugging Face, colaborarás con algunas de las mentes más brillantes de la industria. Fomentamos una cultura de crecimiento continuo y proporcionamos reembolso para conferencias, capacitación y educación relevantes.

Nos preocupamos por tu bienestar. Nuestros beneficios incluyen horarios de trabajo flexibles, opciones remotas, seguro de salud, dental y de visión para empleados y sus dependientes, 12 semanas de licencia parental (20 semanas para madres que dan a luz) y tiempo libre pagado ilimitado.

Aunque tenemos oficinas en NYC y París, somos un equipo distribuido. Los empleados remotos son bienvenidos a visitar nuestras oficinas, y nos aseguraremos de que tu estación de trabajo esté equipada para el éxito, sin importar dónde te encuentres.

Creemos en compartir nuestro éxito. Todos los empleados reciben acciones de la empresa como parte de su paquete de compensación. Si Hugging Face se convierte en una plataforma que define la categoría en aprendizaje automático e IA, todos nos beneficiamos de nuestro éxito.

Apoyamos a la comunidad de ML/IA porque creemos que los grandes avances científicos resultan de la colaboración. Únete a nosotros para contribuir a esta vibrante comunidad.