Senior HPC AI Engineer

AI Engineer
Other places
06/16/2024
-

Job expired!

NVIDIA ищет квалифицированного инженера HPC, чтобы стать частью нашей команды инфраструктуры верификации программного обеспечения End-to-End HPC/AI. Мы специализируемся на создании суперкомпьютеров и HPC кластеров, используя передовые технологии. Это уникальная возможность внести свой вклад в новейшие достижения в области искусственного интеллекта и вычислений на GPU, предоставляя рекомендации по дизайну систем и настройке крупных вычислительных запусков.

В качестве старшего инженера HPC AI, вы будете:

Проектировать, внедрять и поддерживать масштабные HPC/AI кластеры с возможностями мониторинга, логирования и оповещений.
Управлять расписаниями задач Linux и инструментами оркестрации.
Разрабатывать и поддерживать конвейеры непрерывной интеграции и доставки.
Разрабатывать автоматизационные инструменты для развертывания и управления масштабными инфраструктурными средами.
Развертывать решения мониторинга для серверов, сетевых и хранилищных систем.
Решать проблемы на уровне аппаратного обеспечения до уровня приложений.
Служить техническим ресурсом для разработки и документирования передовых практик.
Поддерживать исследовательские и опытно-конструкторские работы и участвовать в POC/POV для будущих улучшений.

Мы ищем людей, которые имеют:

Степень в области компьютерных наук, инженерии или смежной области.
Не менее 5 лет соответствующего опыта в HPC и AI технологиях.
Опыт работы с инструментами планирования и оркестрации задач, такими как Slurm и Kubernetes (K8s).
Отличное знание операционных систем Windows и Linux (Redhat/CentOS и Ubuntu) и их внутреннего устройства, включая сетевые и протоколы безопасности (TCP, DHCP, DNS) и настройки брандмауэра.
Практический опыт работы с несколькими хранилищными решениями, такими как Lustre, GPFS, ZFS и XFS.
Экспертные знания программирования на Python и написания скриптов на bash.
Владение инструментами автоматизации и управления конфигурациями, такими как Jenkins, Ansible, Puppet и Chef.
Глубокие знания сетевых протоколов, включая InfiniBand и Ethernet.
Опыт работы с виртуальными системами, такими как VMware, Hyper-V, KVM или Citrix.

Способы выделиться среди других кандидатов:

Знание облачных вычислительных платформ (например, AWS, Azure, Google Cloud).
Знание архитектуры процессоров CPU и/или GPU.
Опыт работы с оборудованием/программным обеспечением, ориентированным на GPU (DGX, CUDA).
Опыт работы с RDMA (InfiniBand или RoCE) сетями.
Владение Kubernetes и технологиями контейнеризации микросервисов.

В NVIDIA разнообразие является движущей силой нашего инновационного процесса. Мы являемся работодателем, предоставляющим равные возможности и ценим разнообразие в нашей компании. Мы не допускаем дискриминации по признаку расы, религии, цвета кожи, национального происхождения, пола, гендерной идентичности, выражению гендера, сексуальной ориентации, возраста, семейного положения, статуса ветерана или инвалидности. Мы обеспечиваем разумное приспособление для лиц с инвалидностью в процессе подачи заявки на работу или интервью, выполнения основных обязанностей и в других преимуществах и привилегиях трудоустройства. Если вам требуется приспособление, пожалуйста, свяжитесь с нами.

Компания: NVIDIA
Должность: Старший инженер HPC AI