Senior HPC AI Engineer

AI Engineer
Other places
06/16/2024
-

Job expired!

NVIDIA шукає досвідченого HPC Інженера, щоб приєднатися до нашої команди Інфраструктури Кінцевої Перевірки Програмного Забезпечення HPC/AI. Ми спеціалізуємося на будівництві суперкомп'ютерів і кластерів HPC, використовуючи новітні технології. Це унікальна можливість внести свій вклад у найсучасніші досягнення штучного інтелекту та обчислення з використанням GPU, надаючи розуміння щодо проектування систем на великому масштабі та механізмів налаштування для масштабних обчислювальних запусків.

Як старший HPC AI інженер, ви будете:

Проєктувати, впроваджувати та підтримувати великомасштабні HPC/AI кластери зі здатністю моніторингу, логування та сповіщення.
Керувати робочими графіками та інструментами оркестрації для Linux.
Розробляти та підтримувати конвеєри для безперервної інтеграції та доставки.
Розробляти автоматизаційні інструменти для розгортання та управління великомасштабними інфраструктурними середовищами.
Впроваджувати рішення для моніторингу серверів, мережі та систем зберігання.
Вирішувати проблеми від рівня апаратного забезпечення до рівня додатків.
Служити технічним ресурсом для розробки та документування найкращих практик.
Підтримувати дослідницькі та розробницькі заходи і брати участь у POC/POV, щоб сприяти майбутнім поліпшенням.

Ми шукаємо кандидатів, які мають:

Ступінь у галузі комп'ютерних наук, інженерії або спорідненій галузі.
5+ років відповідного досвіду в HPC та технологіях AI.
Досвід роботи з інструментами планування завдань та оркестрації, такими як Slurm і Kubernetes (K8s).
Відмінне знання як операційних систем Windows, так і Linux (Redhat/CentOS та Ubuntu) та їх внутрішньої архітектури, включаючи мережеві та протоколи безпеки (TCP, DHCP, DNS), та налаштування брандмауерів.
Практичний досвід роботи з кількома рішеннями для зберігання даних, такими як Lustre, GPFS, ZFS і XFS.
Експертиза в програмуванні на Python і написанні скриптів bash.
Вміння працювати з інструментами автоматизації та управління конфігураціями, такими як Jenkins, Ansible, Puppet і Chef.
Глибокі знання мережевих протоколів, включаючи InfiniBand та Ethernet.
Досвід роботи з віртуальними системами, такими як VMware, Hyper-V, KVM або Citrix.

Щоб виділитися серед інших кандидатів:

Знання платформ хмарних обчислень (наприклад, AWS, Azure, Google Cloud).
Знання архітектури CPU та/або GPU.
Досвід роботи з обладнанням/програмним забезпеченням, спрямованим на GPU (DGX, CUDA).
Фонова робота з тканинами RDMA (InfiniBand або RoCE).
Вміння працювати з Kubernetes та мікросервісними контейнерними технологіями.

У NVIDIA, різноманітність є рушійною силою нашого іннова