Приєднуйтесь до команди, що розробляє програмне забезпечення, яке буде використано в усьому світі AI. Співпрацюйте з висококваліфікованими інженерами-програмістами для реалізації масштабних наборів інструментів, що тестують моделі та фреймворки глибокого навчання на найпотужніших комп'ютерах. Необхідна здатність працювати у багатоаспектному, динамічному оточенні, а також мати сильні міжособистісні навички. На цій посаді ви будете спілкуватися з внутрішніми партнерами, користувачами та членами спільноти open source для розробки рішень з будівництва, тестування, інтеграції та випуску служб NVIDIA AI та фреймворків глибокого навчання на найпотужніших, класу enterprise, GPU-кластерах, здатних на сотні пета-FLOPS. Ця роль охоплює кілька продуктів, таких як PyTorch, TensorFlow, JAX, PaddlePaddle. Ви будете працювати з внутрішніми інженерними командами для розгортання та оперативного управління моделями AI та службами великого масштабу, сприяючи впровадженню рішень з машинного та глибокого навчання в хмарі та на власних приміщеннях.
Ми шукаємо людей, які зацікавлені допомогти нам масштабувати наші служби AI та глибокого навчання, платформи, моделі та внутрішні інструменти. Вашою відповідальністю буде реалізація та підтримка практик DevOps/MLOps, інструментів та інфраструктури, які дозволять нашим командам надійно та ефективно випускати високоякісне програмне забезпечення, а також забезпечують плавне управління та розгортання випусків. Готові взятися за цей виклик?
Що ви будете робити:
Розробляти, підтримувати та вдосконалювати інструменти CI/CD для розгортання нашого програмного забезпечення на власному обладнанні та в хмарі, активізувати складні cross-platform системи сборки, а також розробляти світових класів інженерію розробки для платформи NVIDIA та процесу розгортання в хмарі.
Забезпечувати платформу для тестування глибокого навчання та використання стандартних в отраслі інструментів, як Gitlab, GitHub, Jenkins, Docker, Bash, а також власні інструменти NVIDIA. Бути відповідальним за кращі практики та методології розробки, тестування та випуску програмного забезпечення DL та підтримувати користувачів платформи.
Відстежувати і виправляти програмне забезпечення для розробки та розгортання конвеєрів, виявляти та усувати проблеми, пов'язані з невдачами збірки, невдачами тестування, якістю коду та продуктивністю, співпрацюючи з командами розробки, експлуатації та забезпечення якості.
Розробляти документацію для запропонованих підходів, політик, форматів даних, тестових випадків та очікуваних результатів в межах вашого проекту. Документувати та розповідати про них.
Працювати поряд з командами розробки, експлуатації та забезпечення якості, щоб встановити та підтримувати ефективні та надійні практики DevOps, інструменти та інфраструктуру, які забезпечують безперервну інтеграцію, безперервну поставку (CI/CD) та ефективне управління випусками програмного забезпечення.
Що ми хочемо бачити:
Ступінь бакалавра або магістра з комп'ютерних наук, комп'ютерної архітектури або суміжної технічної галузі, або еквівалентний досвід.
5+ років робочого досвіду в platform engineering/MLOps/DevOps.
Вміння програмування на Python та bash.
Володіння популярними інструментами CI/CD (наприклад, GitLab CI, Jenkins), git, Linux, включаючи практики управління, версіонування, розгалуження, злиття та маркування, а також досвід використання інструментів та процесів управління випусками.
Знання Docker, REST API services, Kubernetes, ElasticSearch, HashiCorp Vault та Ansible.
Досвід роботи з Cloud Providers (AWS, OCI, GCP).
Великий досвід в налаштуванні, підтримці та автоматизації систем безперервної інтеграції. Знання та зацікавленість в практиках DevOps/MLOps. Володіння сучасними техніками CI/CD, GitOps та Infrastructure as Code.
Базове розуміння концепцій навчання та роботи з ML/DL.
Сильне розуміння принципів тестування програмного забезпечення, включаючи модульне тестування, інтеграційне тестування та end-to-end тестування, а також досвід з автоматизованими системами тестування та інструментами.
Добрі навички комунікації та ведення документації.
Як вам виділитися з-поміж інших:
Досвід створення конвеєрів інтеграції, доставки та розгортання продуктів ML/DL та/або досвід роботи з моделями та/або службами глибокого навчання.
Знайомство з системами розподіленого обчислення великого масштабу та хмарними платформами або досвід з комп'ютерними кластерами на основі HPC та рішеннями для планування, як Slurm.
Доведені успіхи у доставці рішень клієнтам. Глибоке розуміння розгортань великого масштабу та/або внесок в проекти з відкритим кодом.
Відповідні сертифікації (наприклад, AWS Certified DevOps Engineer, Linux RedHat, Oracle та ін.) будуть перевагою.
NVIDIA визнана одним з найбажаніших роботодавців у технічній галузі. Ми маємо щастя мати деяких з найталановитіших та найкреативніших співробітників у світі. Якщо ви інноваційні та самостійні, ми хотіли б почути від вас!
Діапазон базових зарплат - 144 000 USD - 270 250 USD. Ваша базова зарплата буде визначена на основі вашого місцезнаходження, досвіду та зарплати співробітників на схожих посадах.
Ви також будете мати право на акції та пільги. NVIDIA постійно приймає заявки.