Присоединяйтесь к команде, разрабатывающей программное обеспечение, которое будет использоваться во всем мире AI. Сотрудничайте с высококачественными разработчиками программного обеспечения для реализации крупномасштабных наборов инструментов, тестирующих модели и фреймворки глубокого обучения на самых мощных компьютерах. Важна способность работать в многофункциональной, динамичной среде, а также обладать высокими коммуникативными навыками. На этой должности вы будете взаимодействовать с внутренними партнерами, пользователями и членами общества открытого исходного кода, чтобы разрабатывать решения для построения, тестирования, интеграции и выпуска NVIDIA AI Services и глубоких фреймворков обучения на самых мощных, корпоративных кластерах GPU, способных обеспечивать сотни петаФЛОПС. Эта роль охватывает несколько продуктов, таких как PyTorch, TensorFlow, JAX, PaddlePaddle. Вы будете работать с внутренними инженерными командами для развертывания и эксплуатации AI моделей и услуг в большом масштабе, содействуя внедрению машинного обучения и глубокого обучения на премисных и облачных решениях.
Мы ищем людей, которые с энтузиазмом помогут нам масштабировать наши AI и услуги глубокого обучения, платформы, модели и внутренние инструменты. Ваша задача будет заключаться в реализации и поддержании практик DevOps/MLOps, инструментов и инфраструктуры, позволяющих нашим командам доставлять высококачественное программное обеспечение надежно и эффективно, обеспечивая гладкое управление и развертывание релизов. Готовы ли вы принять это вызов?
Что вы будете делать:
Разрабатывать, поддерживать и улучшать инструменты CI/CD для развертывания нашего программного обеспечения на предприятии и в облаке, внедрять сложные системы сборки для различных платформ и обеспечивать высококлассную инженерную поддержку релизов для платформы NVIDIA и процессов развертывания облачных сервисов.
Расширять возможности самостоятельной платформы для тестирования и оценки производительности глубокого обучения с использованием отраслевых стандартов, таких как GitLab, GitHub, Jenkins, Docker, Bash и собственных инструментов NVIDIA. Быть ответственным за лучшие практики и методы построения, тестирования и релиза программного обеспечения для глубокого обучения и поддержки пользователей платформы.
Отслеживать и исправлять пайплайны разработки и развертывания программного обеспечения, определять и устранять проблемы, связанные с отказами сборки, тестированием, качеством кода и производительностью в сотрудничестве с командами разработки, эксплуатации и контроля качества.
Разрабатывать документацию для предлагаемых подходов, политик, форматов данных, тестовых случаев и ожидаемых результатов в рамках ваших проектов. Документировать и распространять информацию о них.
Работать вместе с командами разработки, операций и контроля качества для установления и поддержания эффективных и надежных практик DevOps, инструментов и инфраструктур, обеспечивающих непрерывную интеграцию, непрерывную доставку (CI/CD) и эффективное управление релизами программного обеспечения.
Что мы хотели бы видеть:
Бакалавр или магистр в области компьютерных наук, компьютерной архитектуры или другой смежной технической области, либо эквивалентный опыт.
5+ лет рабочего опыта в области платформенной инженерии/MLOps/DevOps.
Навыки программирования на Python и bash.
Знакомство с популярными инструментами CI/CD (например, GitLab CI, Jenkins), git, Linux, включая практики управления, версионирование, ветвление, слияние и маркировку, а также опыт работы с инструментами и процессами управления релизами.
Знание Docker, REST API сервисов, Kubernetes, ElasticSearch, HashiCorp Vault и Ansible.
Опыт работы с облачными провайдерами (AWS, OCI, GCP).
Большой опыт в настройке, поддержании и автоматизации систем непрерывной интеграции. Знание и энтузиазм в области практик DevOps/MLOps. Знание современных техник CI/CD, GitOps и Infrastructure as Code.
Базовое понимание принципов обучения и вывода ML/DL.
Глубокое понимание принципов тестирования программного обеспечения, включая модульное тестирование, интеграционное тестирование и тестирование "от начала до конца", а также опыт работы с автоматизированными фреймворками и инструментами для тестирования.
Хорошие навыки коммуникации и документирования.
Способы выделиться из толпы:
Опыт создания циклов интеграции, доставки и развертывания продуктов ML/DL и/или опыт работы с глубокими моделями обучения и/или сервисами.
Знакомство с системами распределенных вычислений и облачными платформами в большом масштабе, или опыт работы с компьютерными кластерами на основе HPC и решениями для планирования задач, такими как Slurm.
Подтвержденный опыт поставки решений клиентам. Глубокое понимание масштабных развертываний и/или вклад в проекты с открытым исходным кодом.
Релевантные сертификаты (например, AWS Certified DevOps Engineer, Linux RedHat, Oracle и т. д.) будут плюсом.
NVIDIA широко считается одним из самых востребованных работодателей в технологической индустрии. Нам повезло иметь одних из самых талантливых и креативных сотрудников в мире. Если вы инновационны и самостоятельны, мы будем рады услышать от вас!
Диапазон базовой заработной платы составляет от 144 000 до 270 250 долларов США. Ваша базовая зарплата будет определена на основе вашего местоположения, опыта и зарплаты сотрудников на аналогичных должностях.
Вы также будете иметь право на долю в капитале и социальный пакет. NVIDIA постоянно принимает заявки.