Інженер ML Ops, HPC

Other
Other places
$69 K - $128 K

Full Time

Job expired!

Про Стабільність:

Стабільність AI - це місійна компанія, що працює з відкритим вихідним кодом штучного інтелекту з великою повагою до реальних ефектів та застосувань. Наші значні досягнення випливають з нашої різноманітності, що дозволяє нам працювати в різних відділах та областях. Ми не боїмося викликати встановлені стандарти та виявляти творчість. Ми прагнемо створювати першопланові ідеї та трансформувати їх у реальні рішення. Наші динамічні громади складаються з експертів, лідерів та партнерів з усього світу, які створюють передові моделі AI для зображень, мови, аудіо, відео, 3D та біології.

Про роль: strong>

Ми шукаємо досвідченого інженера ML Ops, якому багато чого важливого приділяється рамках високопродуктивних обчислень (HPC), щоб стати частиною нашої команди. Основне завдання цієї ролі полягає в тому, щоб ефективно зв'язувати наші команди інженерії, забезпечуючи безперебійну інтеграцію та роботу моделей машинного навчання в рамках високопродуктивних обчислень. Перфектний кандидат буде керувати розгортанням інструментів для глибокого навчання та навчання моделей і керувати необхідними змінами в хостинговій інфраструктурі для оптимізації продуктивності.

Обов'язки:

Тісно співпрацювати з інженерними командами для забезпечення безшовного взаємодії та інтеграції обслуговування та навчання моделей машинного навчання в рамках HPC.
Керувати та оптимізувати розгортання інструментів для навчання та виведення, гарантуючи їх ефективну роботу в межах визначеної інфраструктури.
Вносити необхідні зміни в хостингову інфраструктуру, щоб відповідати конкретним потребам моделей ML, гарантуючи їх ефективну роботу як в хмарних, так і в HPC-умовах.
Сприяти гармонійній роботі хмарних служб та систем HPC, дозволяючи їм функціонувати самостійно без втручання.
Гарантувати успішну інтеграцію контейнерів для виводу результатів та ресурсів, дозволяючи паралельну роботу в єдиному порядку.
Активно брати участь в оптимізації продуктивності в глибокому навчанні, розуміючи роль компіляторів та їх роль у підвищенні ефективності.
Надавати технічні знання в області Linux, SLURM та досвід роботи з інфраструктурою AWS або GCP, оптимізуючи середовище для роботи ML.
Співпрацювати з більш широкою командою для проектування, створення та підтримки ефективних та масштабованих систем для підтримки розгортання та виконання моделей машинного навчання.
Проявляти впевненість у мовах програмування, таких як Python, C++ та TypeScript, забезпечуючи розробку та управління різними інструментами та інтеграціями.

Вимоги:

Володіння мовами програмування, такими як Python, C / C++ та TypeScript
Досвід роботи в хмарних середовищах, таких як AWS, GCP, Cloudflare тощо.
Досвід роботи з инструментами управління кластерами HPC, такими як Slurm та системами, такими як Linux.
Знайомство з GPU та іншими прискорювачами, такими як Gaudi2 та TPU.
Солідний досвід управління та координації роботи з міжфункціональними командами у динамічному середовищі.
Здатність вирішувати і виправляти складні технічні проблеми в обставинах HPC, забезпечуючи неперервну гладку роботу моделей ML.
Доведений досвід проектування та впровадження рішень для високої доступності, масштабованості та продуктивності.
Сильні комунікативні навички та здатність передавати складні технічні концепції нетехнічним учасникам.
Знайомство з гнучкими методологіями, які дозволяють швидко адаптуватися до змінюваних вимог проєкту.

Рівні можливості при працевлаштуванні:

Ми пропонуємо рівні можливості і не дискримінуємо на основі раси, віросповідання, національного походження, статі, сексуальної орієнтації, віку, ветеранського стану, інвалідності чи будь-якого іншого законодавчо захищеного статусу.