Інженер ML Ops, HPC

  • Full Time
Job expired!

Про Стабільність:

Стабільність AI - це місійна компанія, що працює з відкритим вихідним кодом штучного інтелекту з великою повагою до реальних ефектів та застосувань. Наші значні досягнення випливають з нашої різноманітності, що дозволяє нам працювати в різних відділах та областях. Ми не боїмося викликати встановлені стандарти та виявляти творчість. Ми прагнемо створювати першопланові ідеї та трансформувати їх у реальні рішення. Наші динамічні громади складаються з експертів, лідерів та партнерів з усього світу, які створюють передові моделі AI для зображень, мови, аудіо, відео, 3D та біології.

Про роль: strong>

Ми шукаємо досвідченого інженера ML Ops, якому багато чого важливого приділяється рамках високопродуктивних обчислень (HPC), щоб стати частиною нашої команди. Основне завдання цієї ролі полягає в тому, щоб ефективно зв'язувати наші команди інженерії, забезпечуючи безперебійну інтеграцію та роботу моделей машинного навчання в рамках високопродуктивних обчислень. Перфектний кандидат буде керувати розгортанням інструментів для глибокого навчання та навчання моделей і керувати необхідними змінами в хостинговій інфраструктурі для оптимізації продуктивності.

Обов'язки:

  • Тісно співпрацювати з інженерними командами для забезпечення безшовного взаємодії та інтеграції обслуговування та навчання моделей машинного навчання в рамках HPC.
  • Керувати та оптимізувати розгортання інструментів для навчання та виведення, гарантуючи їх ефективну роботу в межах визначеної інфраструктури.
  • Вносити необхідні зміни в хостингову інфраструктуру, щоб відповідати конкретним потребам моделей ML, гарантуючи їх ефективну роботу як в хмарних, так і в HPC-умовах.
  • Сприяти гармонійній роботі хмарних служб та систем HPC, дозволяючи їм функціонувати самостійно без втручання.
  • Гарантувати успішну інтеграцію контейнерів для виводу результатів та ресурсів, дозволяючи паралельну роботу в єдиному порядку.
  • Активно брати участь в оптимізації продуктивності в глибокому навчанні, розуміючи роль компіляторів та їх роль у підвищенні ефективності.
  • Надавати технічні знання в області Linux, SLURM та досвід роботи з інфраструктурою AWS або GCP, оптимізуючи середовище для роботи ML.
  • Співпрацювати з більш широкою командою для проектування, створення та підтримки ефективних та масштабованих систем для підтримки розгортання та виконання моделей машинного навчання.
  • Проявляти впевненість у мовах програмування, таких як Python, C++ та TypeScript, забезпечуючи розробку та управління різними інструментами та інтеграціями.

Вимоги:

  • Володіння мовами програмування, такими як Python, C / C++ та TypeScript
  • Досвід роботи в хмарних середовищах, таких як AWS, GCP, Cloudflare тощо.
  • Досвід роботи з инструментами управління кластерами HPC, такими як Slurm та системами, такими як Linux.
  • Знайомство з GPU та іншими прискорювачами, такими як Gaudi2 та TPU.
  • Солідний досвід управління та координації роботи з міжфункціональними командами у динамічному середовищі.
  • Здатність вирішувати і виправляти складні технічні проблеми в обставинах HPC, забезпечуючи неперервну гладку роботу моделей ML.
  • Доведений досвід проектування та впровадження рішень для високої доступності, масштабованості та продуктивності.
  • Сильні комунікативні навички та здатність передавати складні технічні концепції нетехнічним учасникам.
  • Знайомство з гнучкими методологіями, які дозволяють швидко адаптуватися до змінюваних вимог проєкту.

Рівні можливості при працевлаштуванні:

Ми пропонуємо рівні можливості і не дискримінуємо на основі раси, віросповідання, національного походження, статі, сексуальної орієнтації, віку, ветеранського стану, інвалідності чи будь-якого іншого законодавчо захищеного статусу.