Про Стабільність:
Стабільність AI - це місійна компанія, що працює з відкритим вихідним кодом штучного інтелекту з великою повагою до реальних ефектів та застосувань. Наші значні досягнення випливають з нашої різноманітності, що дозволяє нам працювати в різних відділах та областях. Ми не боїмося викликати встановлені стандарти та виявляти творчість. Ми прагнемо створювати першопланові ідеї та трансформувати їх у реальні рішення. Наші динамічні громади складаються з експертів, лідерів та партнерів з усього світу, які створюють передові моделі AI для зображень, мови, аудіо, відео, 3D та біології.
Про роль: strong>
Ми шукаємо досвідченого інженера ML Ops, якому багато чого важливого приділяється рамках високопродуктивних обчислень (HPC), щоб стати частиною нашої команди. Основне завдання цієї ролі полягає в тому, щоб ефективно зв'язувати наші команди інженерії, забезпечуючи безперебійну інтеграцію та роботу моделей машинного навчання в рамках високопродуктивних обчислень. Перфектний кандидат буде керувати розгортанням інструментів для глибокого навчання та навчання моделей і керувати необхідними змінами в хостинговій інфраструктурі для оптимізації продуктивності.
Обов'язки:
- Тісно співпрацювати з інженерними командами для забезпечення безшовного взаємодії та інтеграції обслуговування та навчання моделей машинного навчання в рамках HPC.
- Керувати та оптимізувати розгортання інструментів для навчання та виведення, гарантуючи їх ефективну роботу в межах визначеної інфраструктури.
- Вносити необхідні зміни в хостингову інфраструктуру, щоб відповідати конкретним потребам моделей ML, гарантуючи їх ефективну роботу як в хмарних, так і в HPC-умовах.
- Сприяти гармонійній роботі хмарних служб та систем HPC, дозволяючи їм функціонувати самостійно без втручання.
- Гарантувати успішну інтеграцію контейнерів для виводу результатів та ресурсів, дозволяючи паралельну роботу в єдиному порядку.
- Активно брати участь в оптимізації продуктивності в глибокому навчанні, розуміючи роль компіляторів та їх роль у підвищенні ефективності.
- Надавати технічні знання в області Linux, SLURM та досвід роботи з інфраструктурою AWS або GCP, оптимізуючи середовище для роботи ML.
- Співпрацювати з більш широкою командою для проектування, створення та підтримки ефективних та масштабованих систем для підтримки розгортання та виконання моделей машинного навчання.
- Проявляти впевненість у мовах програмування, таких як Python, C++ та TypeScript, забезпечуючи розробку та управління різними інструментами та інтеграціями.
Вимоги:
- Володіння мовами програмування, такими як Python, C / C++ та TypeScript
- Досвід роботи в хмарних середовищах, таких як AWS, GCP, Cloudflare тощо.
- Досвід роботи з инструментами управління кластерами HPC, такими як Slurm та системами, такими як Linux.
- Знайомство з GPU та іншими прискорювачами, такими як Gaudi2 та TPU.
- Солідний досвід управління та координації роботи з міжфункціональними командами у динамічному середовищі.
- Здатність вирішувати і виправляти складні технічні проблеми в обставинах HPC, забезпечуючи неперервну гладку роботу моделей ML.
- Доведений досвід проектування та впровадження рішень для високої доступності, масштабованості та продуктивності.
- Сильні комунікативні навички та здатність передавати складні технічні концепції нетехнічним учасникам.
- Знайомство з гнучкими методологіями, які дозволяють швидко адаптуватися до змінюваних вимог проєкту.
Рівні можливості при працевлаштуванні:
Ми пропонуємо рівні можливості і не дискримінуємо на основі раси, віросповідання, національного походження, статі, сексуальної орієнтації, віку, ветеранського стану, інвалідності чи будь-якого іншого законодавчо захищеного статусу.