О Stability:
Stability AI - это миссионная, открытая искусственная интеллектуальная компания с глубоким уважением к реальным эффектам и приложениям. Наши значительные достижения происходят из нашего разнообразия, что позволяет нам работать в нескольких отделах и областях. Мы не стесняемся бросать вызов установленным стандартам и исследовать творчество. Мы стремимся создавать новаторские идеи и превращать их в конкретные решения. Наши динамические сообщества состоят из экспертов, лидеров и партнеров со всего мира, которые создают передовые открытые модели AI для изображений, языка, аудио, видео, 3D и биологии.
О роли:
Мы ищем опытного инженера ML Ops с большим акцентом на высокопроизводительные вычисления (HPC), который станет частью нашей команды. Основная задача этой роли - эффективно преодолеть разрыв между нашими инженерными командами, обеспечивая бесшовную интеграцию и работу моделей машинного обучения в условиях высокопроизводительных вычислений. Идеальный кандидат будет контролировать развертывание служебных и обучающих инструментов для моделей глубокого обучения и управлять необходимыми изменениями в инфраструктуре хостинга для оптимизации производительности.
Обязанности:
- Тесно работать с инженерными командами для обеспечения бесшовного взаимодействия и интеграции моделей машинного обучения в рамках настройки HPC.
- Наблюдать и оптимизировать развертывание обучающих и инструментов для вывода, гарантируя их эффективное функционирование в назначенной инфраструктуре.
- Вносить необходимые изменения в инфраструктуру хостинга для удовлетворения специфических потребностей моделей ML, обеспечивая их эффективную работу как в облачных, так и в HPC настройках.
- Содействовать гармоничной работе облачных услуг и систем HPC, позволяя им функционировать независимо без вмешательства.
- Обеспечивать успешную интеграцию контейнеров вывода и ресурсов, которые позволяют проводить параллельные операции единым образом.
- Активно участвовать в оптимизации производительности в Deep Learning, воспользовавшись твердым пониманием компиляторов и их роли в повышении эффективности.
- Предоставлять техническую экспертизу в Linux, SLURM и в опыте работы с инфраструктурой AWS или GCP, оптимизируя среду для операций ML.
- Сотрудничать с более широкой командой для проектирования, построения и поддержания эффективных и масштабируемых систем, поддерживающих развертывание и выполнение моделей машинного обучения.
- Проявлять владение языками программирования, такими как Python, C++, TypeScript, обеспечивая разработку и управление различными инструментами и интеграциями.
Требования:
- Владение языками программирования, такими как Python, C/C++ и TypeScript.
- Опыт работы в облачных средах, таких как AWS, GCP, Cloudflare и т.д.
- Опыт работы с инструментами управления кластерами HPC, такими как Slurm и системами, такими как Linux.
- Знакомство с GPUs и другими ускорителями, такими как Gaudi2 и TPU.
- Твердый опыт работы в управлении и координации с кросс-функциональными командами в условиях быстро меняющейся среды.
- Способность устранять и решать сложные технические проблемы в условиях HPC, обеспечивая непрерывное гладкое функционирование моделей ML.
- Подтвержденный опыт проектирования и внедрения решений для высокой доступности, масштабируемости и производительности.
- Сильные коммуникативные навыки и способность объяснить сложные технические концепции нетехническим участникам.
- Знакомство с методологиями Agile, что позволяет быстро адаптироваться к меняющимся требованиям проекта.
Равные возможности при трудоустройстве:
Мы предоставляем равные возможности при трудоустройстве и не допускаем дискриминации по признакам расы, религии, национальности, пола, сексуальной ориентации, возраста, статуса ветерана, инвалидности или любого другого законно защищенного статуса.