Tech Lead Manager (TLM) - Supercomputing Scheduling

Other
San Francisco
06/12/2024
-

Job expired!

About the Team: El Pilar de Programación de Supercomputación en OpenAI se centra en la fiabilidad, escalabilidad y facilidad de uso en la gestión del ciclo de vida de los trabajos. Nos enorgullecemos de proporcionar una programación de trabajos eficiente y flexible, gestión de cuotas y flujos de trabajo de ejecución de trabajos optimizados. Nuestro objetivo es mejorar la productividad de los investigadores asegurando un alto rendimiento, empaquetamiento eficiente y un flujo de trabajo de entrenamiento coherente y ergonómico, escalando hacia supercomputadoras más grandes mientras minimizamos la carga operacional.

About the Role: Como Tech Lead Manager (TLM) / Engineering Manager dentro de nuestro Pilar de Programación, liderarás un equipo dinámico que diseña, implementa y gestiona sistemas de gestión del ciclo de vida de trabajos para el entrenamiento de modelos en algunas de las supercomputadoras más grandes del mundo. Este rol ofrece una escala inmensa, plazos ajustados y la oportunidad de impactar significativamente en la misión de OpenAI. Se requiere un profundo conocimiento técnico, aunque no específicamente en ML/DL.

Esta posición se basa en San Francisco, CA, y sigue un modelo de trabajo híbrido con tres días en la oficina por semana. La asistencia para la reubicación está disponible para candidatos calificados.

Gestión directa de los Colaboradores Individuales (ICs) que desarrollan nuestra tecnología de programación de supercomputación.
Construir y liderar equipos de alto rendimiento para entregar nuestra tecnología de manera segura y confiable a usuarios globalmente.
Diseñar, implementar y gestionar componentes cruciales de nuestros sistemas de programación de trabajos, gestión de cuotas y sistemas de colas.
Colaborar estrechamente con los investigadores para alinear los recursos de supercomputación con las demandas del proyecto.
Integrar características del ciclo de vida del trabajo con la infraestructura del clúster, soluciones de almacenamiento y protocolos de salud del hardware.

Tú podrías ser el candidato perfecto si:

Tienes una amplia experiencia con sistemas de programación a híper escala.
Posees habilidades de programación robustas y un sólido historial en entornos de nube pública, particularmente Azure.
Eres motivado, con un enfoque agudo en la ejecución y las necesidades del usuario.
Puedes liderar equipos técnicos de manera efectiva, fomentando una cultura de trabajo diversa, equitativa e inclusiva.
Eres proactivo en la resolución de problemas y ansioso por adquirir nuevos conocimientos según sea necesario.
Te destacas en la comunicación, con un talento para la expresión clara y la escucha atenta.

La experiencia con cargas de trabajo de AI/ML es una ventaja pero no es requerida.

OpenAI está comprometido con el avance de la tecnología de inteligencia artificial que puede beneficiar profundamente a toda la humanidad. Nuestra misión principal es asegurar que el desarrollo de la inteligencia artificial se realice teniendo en cuenta la seguridad y el bienestar público. Acogemos perspectivas diversas y estamos orgullosos de ser un empleador que ofrece igualdad de oportunidades.

Si estás listo para dar forma al futuro de la tecnología, ¡aplica hoy para unirte a nuestro equipo en OpenAI!

Para más información sobre nuestras políticas de privacidad y regulaciones de empleo, por favor visita nuestra página de carreras.