Research Inference, Tech Lead

Job expired!

О команде

Команда Platform ML в OpenAI играет ключевую роль в создании фреймворка машинного обучения (ML), лежащего в основе наших передовых внутренних систем обучения. Мы специализируемся на распределенном выполнении моделей и настройке интерфейсов и процессов развертывания для кодирования, обучения и вывода моделей. Наша задача - обеспечить высокую пропускную способность обучения и оптимизацию продуктивности исследователей, стремясь ускорить прогресс в направлении создания искусственного общего интеллекта (AGI). Сотрудничество с различными командами происходит регулярно, поскольку мы работаем над быстрым внедрением новых возможностей.

О роли

Как опытный технический лидер, вы возглавите ключевые разработки в нашем собственном стеке вывода и сыграете важную роль в расширении команды. Мы сосредоточены на улучшении и адаптации стека вывода, разработанного нашей командой инженеров по прикладному ИИ, для лучшего соответствия исследовательским приложениям. В эту роль входит:

  • Достижение передового (SOTA) уровня пропускной способности для ключевых исследовательских моделей.
  • Сокращение времени для эффективной реализации вывода на новых архитектурах моделей.
  • Тесное сотрудничество с командой инженеров по прикладному ИИ для максимизации полезности нашего передового внутреннего стека вывода.
  • Создание и поддержание культуры рабочего места, которая способствует разнообразию, равенству и инклюзивности, облегчая открытое общение и инновации.

Почему вам здесь понравится

Идеальные кандидаты на эту роль обычно имеют:

  • Доказанный опыт работы с системами ML, особенно с масштабным распределенным обучением или выводом для современных больших языковых моделей (LLM).
  • Хорошее понимание последних исследований в области ИИ и практической реализации эффективных систем.
  • Опыт управления крупномасштабными инженерными проектами от начала до конца.
  • Экспертные знания в области основных технологий высокопроизводительных вычислений (HPC), таких как InfiniBand, MPI, CUDA и OpenAI Triton.
  • Глубокое знание GPU/ускорителей аппаратного обеспечения и производительности сетей для оптимизации пропускной способности вывода на нескольких устройствах.
  • Скромный подход