Senior AI and ML Infra Engineer, Research Clusters

Job expired!

Вас увлекает искусственный интеллект и машинное обучение? NVIDIA в Санта-Кларе, Калифорния, США ищет опытного инженера по инфраструктуре ИИ/ML, чтобы усилить наши передовые технологические решения. Это уникальная возможность внести вклад в команду, которая находится на передовой технологий ИИ/ML, направляя инновации, которые изменяют мир.

В роли старшего инженера по инфраструктуре ИИ и машинного обучения, ваша основная задача будет заключаться в повышении производительности наших исследовательских групп путем выявления и устранения пробелов в инфраструктуре. Это включает в себя проектирование и реализацию решений для улучшения масштабируемости, надежности и эффективности наших крупномасштабных кластеров GPU и других критически важных систем.

  • Понимание инфраструктурных потребностей исследовательских групп ИИ/ML и их преобразование в мощные улучшения.
  • Проектирование решений для управления хранением данных, атрибуции ошибок и решения проблем надежности в наших кластерах GPU.
  • Оптимизация производительности и использования ресурсов инфраструктуры ИИ/ML путем постоянного мониторинга и модернизации.
  • Разработка инструментов автоматизации и операционных стратегий для минимизации ручных задач и упрощения управления инфраструктурой.
  • Сотрудничество с мультидисциплинарными командами для обеспечения бесперебойной и надежной экосистемы инфраструктуры ИИ/ML.
  • Постоянное ознакомление с последними достижениями в технологиях ИИ/ML и их интеграция в стратегии NVIDIA.

Мы ищем кандидата с бакалаврской степенью или ее эквивалентом (предпочтительно магистратура) в области компьютерных наук или смежных дисциплин, имеющего как минимум 12 лет соответствующего опыта. Вы должны обладать крепкой основой в области разработки программного обеспечения с глубоким пониманием масштабируемых распределенных систем, предпочтительно в контексте инфраструктур ИИ/ML.

  • Знание языков программирования, таких как Python, Go или C++.
  • Знакомство с облачными платформами, такими как AWS, GCP или Azure.
  • Опыт работы с Docker, Kubernetes, Ansible, Terraform, Prometheus, Grafana и другими аналогичными инструментами.
  • Глубокое понимание рабочих процессов ИИ/ML от обработки данных до обучения моделей и вывода.
  • Сильные навыки решения проблем и спос