Инженер по ML Ops, HPC

  • Full Time
Job expired!

О Stability:

Stability AI - это миссионная, открытая искусственная интеллектуальная компания с глубоким уважением к реальным эффектам и приложениям. Наши значительные достижения происходят из нашего разнообразия, что позволяет нам работать в нескольких отделах и областях. Мы не стесняемся бросать вызов установленным стандартам и исследовать творчество. Мы стремимся создавать новаторские идеи и превращать их в конкретные решения. Наши динамические сообщества состоят из экспертов, лидеров и партнеров со всего мира, которые создают передовые открытые модели AI для изображений, языка, аудио, видео, 3D и биологии.

О роли:

Мы ищем опытного инженера ML Ops с большим акцентом на высокопроизводительные вычисления (HPC), который станет частью нашей команды. Основная задача этой роли - эффективно преодолеть разрыв между нашими инженерными командами, обеспечивая бесшовную интеграцию и работу моделей машинного обучения в условиях высокопроизводительных вычислений. Идеальный кандидат будет контролировать развертывание служебных и обучающих инструментов для моделей глубокого обучения и управлять необходимыми изменениями в инфраструктуре хостинга для оптимизации производительности.

Обязанности:

  • Тесно работать с инженерными командами для обеспечения бесшовного взаимодействия и интеграции моделей машинного обучения в рамках настройки HPC.
  • Наблюдать и оптимизировать развертывание обучающих и инструментов для вывода, гарантируя их эффективное функционирование в назначенной инфраструктуре.
  • Вносить необходимые изменения в инфраструктуру хостинга для удовлетворения специфических потребностей моделей ML, обеспечивая их эффективную работу как в облачных, так и в HPC настройках.
  • Содействовать гармоничной работе облачных услуг и систем HPC, позволяя им функционировать независимо без вмешательства.
  • Обеспечивать успешную интеграцию контейнеров вывода и ресурсов, которые позволяют проводить параллельные операции единым образом.
  • Активно участвовать в оптимизации производительности в Deep Learning, воспользовавшись твердым пониманием компиляторов и их роли в повышении эффективности.
  • Предоставлять техническую экспертизу в Linux, SLURM и в опыте работы с инфраструктурой AWS или GCP, оптимизируя среду для операций ML.
  • Сотрудничать с более широкой командой для проектирования, построения и поддержания эффективных и масштабируемых систем, поддерживающих развертывание и выполнение моделей машинного обучения.
  • Проявлять владение языками программирования, такими как Python, C++, TypeScript, обеспечивая разработку и управление различными инструментами и интеграциями.

Требования:

  • Владение языками программирования, такими как Python, C/C++ и TypeScript.
  • Опыт работы в облачных средах, таких как AWS, GCP, Cloudflare и т.д.
  • Опыт работы с инструментами управления кластерами HPC, такими как Slurm и системами, такими как Linux.
  • Знакомство с GPUs и другими ускорителями, такими как Gaudi2 и TPU.
  • Твердый опыт работы в управлении и координации с кросс-функциональными командами в условиях быстро меняющейся среды.
  • Способность устранять и решать сложные технические проблемы в условиях HPC, обеспечивая непрерывное гладкое функционирование моделей ML.
  • Подтвержденный опыт проектирования и внедрения решений для высокой доступности, масштабируемости и производительности.
  • Сильные коммуникативные навыки и способность объяснить сложные технические концепции нетехническим участникам.
  • Знакомство с методологиями Agile, что позволяет быстро адаптироваться к меняющимся требованиям проекта.

Равные возможности при трудоустройстве:

Мы предоставляем равные возможности при трудоустройстве и не допускаем дискриминации по признакам расы, религии, национальности, пола, сексуальной ориентации, возраста, статуса ветерана, инвалидности или любого другого законно защищенного статуса.