Инженер по ML Ops, HPC

Other
Other places
$69 K - $128 K

Full Time

Job expired!

О Stability:

Stability AI - это миссионная, открытая искусственная интеллектуальная компания с глубоким уважением к реальным эффектам и приложениям. Наши значительные достижения происходят из нашего разнообразия, что позволяет нам работать в нескольких отделах и областях. Мы не стесняемся бросать вызов установленным стандартам и исследовать творчество. Мы стремимся создавать новаторские идеи и превращать их в конкретные решения. Наши динамические сообщества состоят из экспертов, лидеров и партнеров со всего мира, которые создают передовые открытые модели AI для изображений, языка, аудио, видео, 3D и биологии.

О роли:

Мы ищем опытного инженера ML Ops с большим акцентом на высокопроизводительные вычисления (HPC), который станет частью нашей команды. Основная задача этой роли - эффективно преодолеть разрыв между нашими инженерными командами, обеспечивая бесшовную интеграцию и работу моделей машинного обучения в условиях высокопроизводительных вычислений. Идеальный кандидат будет контролировать развертывание служебных и обучающих инструментов для моделей глубокого обучения и управлять необходимыми изменениями в инфраструктуре хостинга для оптимизации производительности.

Обязанности:

Тесно работать с инженерными командами для обеспечения бесшовного взаимодействия и интеграции моделей машинного обучения в рамках настройки HPC.
Наблюдать и оптимизировать развертывание обучающих и инструментов для вывода, гарантируя их эффективное функционирование в назначенной инфраструктуре.
Вносить необходимые изменения в инфраструктуру хостинга для удовлетворения специфических потребностей моделей ML, обеспечивая их эффективную работу как в облачных, так и в HPC настройках.
Содействовать гармоничной работе облачных услуг и систем HPC, позволяя им функционировать независимо без вмешательства.
Обеспечивать успешную интеграцию контейнеров вывода и ресурсов, которые позволяют проводить параллельные операции единым образом.
Активно участвовать в оптимизации производительности в Deep Learning, воспользовавшись твердым пониманием компиляторов и их роли в повышении эффективности.
Предоставлять техническую экспертизу в Linux, SLURM и в опыте работы с инфраструктурой AWS или GCP, оптимизируя среду для операций ML.
Сотрудничать с более широкой командой для проектирования, построения и поддержания эффективных и масштабируемых систем, поддерживающих развертывание и выполнение моделей машинного обучения.
Проявлять владение языками программирования, такими как Python, C++, TypeScript, обеспечивая разработку и управление различными инструментами и интеграциями.

Требования:

Владение языками программирования, такими как Python, C/C++ и TypeScript.
Опыт работы в облачных средах, таких как AWS, GCP, Cloudflare и т.д.
Опыт работы с инструментами управления кластерами HPC, такими как Slurm и системами, такими как Linux.
Знакомство с GPUs и другими ускорителями, такими как Gaudi2 и TPU.
Твердый опыт работы в управлении и координации с кросс-функциональными командами в условиях быстро меняющейся среды.
Способность устранять и решать сложные технические проблемы в условиях HPC, обеспечивая непрерывное гладкое функционирование моделей ML.
Подтвержденный опыт проектирования и внедрения решений для высокой доступности, масштабируемости и производительности.
Сильные коммуникативные навыки и способность объяснить сложные технические концепции нетехническим участникам.
Знакомство с методологиями Agile, что позволяет быстро адаптироваться к меняющимся требованиям проекта.

Равные возможности при трудоустройстве:

Мы предоставляем равные возможности при трудоустройстве и не допускаем дискриминации по признакам расы, религии, национальности, пола, сексуальной ориентации, возраста, статуса ветерана, инвалидности или любого другого законно защищенного статуса.