Senior AI and ML Infra Engineer, Research Clusters

Other
Other places
06/12/2024
-

Job expired!

Вас увлекает искусственный интеллект и машинное обучение? NVIDIA в Санта-Кларе, Калифорния, США ищет опытного инженера по инфраструктуре ИИ/ML, чтобы усилить наши передовые технологические решения. Это уникальная возможность внести вклад в команду, которая находится на передовой технологий ИИ/ML, направляя инновации, которые изменяют мир.

В роли старшего инженера по инфраструктуре ИИ и машинного обучения, ваша основная задача будет заключаться в повышении производительности наших исследовательских групп путем выявления и устранения пробелов в инфраструктуре. Это включает в себя проектирование и реализацию решений для улучшения масштабируемости, надежности и эффективности наших крупномасштабных кластеров GPU и других критически важных систем.

Понимание инфраструктурных потребностей исследовательских групп ИИ/ML и их преобразование в мощные улучшения.
Проектирование решений для управления хранением данных, атрибуции ошибок и решения проблем надежности в наших кластерах GPU.
Оптимизация производительности и использования ресурсов инфраструктуры ИИ/ML путем постоянного мониторинга и модернизации.
Разработка инструментов автоматизации и операционных стратегий для минимизации ручных задач и упрощения управления инфраструктурой.
Сотрудничество с мультидисциплинарными командами для обеспечения бесперебойной и надежной экосистемы инфраструктуры ИИ/ML.
Постоянное ознакомление с последними достижениями в технологиях ИИ/ML и их интеграция в стратегии NVIDIA.

Мы ищем кандидата с бакалаврской степенью или ее эквивалентом (предпочтительно магистратура) в области компьютерных наук или смежных дисциплин, имеющего как минимум 12 лет соответствующего опыта. Вы должны обладать крепкой основой в области разработки программного обеспечения с глубоким пониманием масштабируемых распределенных систем, предпочтительно в контексте инфраструктур ИИ/ML.

Знание языков программирования, таких как Python, Go или C++.
Знакомство с облачными платформами, такими как AWS, GCP или Azure.
Опыт работы с Docker, Kubernetes, Ansible, Terraform, Prometheus, Grafana и другими аналогичными инструментами.
Глубокое понимание рабочих процессов ИИ/ML от обработки данных до обучения моделей и вывода.
Сильные навыки решения проблем и спос