Senior HPC AI Engineer

Job expired!

NVIDIA шукає досвідченого HPC Інженера, щоб приєднатися до нашої команди Інфраструктури Кінцевої Перевірки Програмного Забезпечення HPC/AI. Ми спеціалізуємося на будівництві суперкомп'ютерів і кластерів HPC, використовуючи новітні технології. Це унікальна можливість внести свій вклад у найсучасніші досягнення штучного інтелекту та обчислення з використанням GPU, надаючи розуміння щодо проектування систем на великому масштабі та механізмів налаштування для масштабних обчислювальних запусків.

Як старший HPC AI інженер, ви будете:

  • Проєктувати, впроваджувати та підтримувати великомасштабні HPC/AI кластери зі здатністю моніторингу, логування та сповіщення.
  • Керувати робочими графіками та інструментами оркестрації для Linux.
  • Розробляти та підтримувати конвеєри для безперервної інтеграції та доставки.
  • Розробляти автоматизаційні інструменти для розгортання та управління великомасштабними інфраструктурними середовищами.
  • Впроваджувати рішення для моніторингу серверів, мережі та систем зберігання.
  • Вирішувати проблеми від рівня апаратного забезпечення до рівня додатків.
  • Служити технічним ресурсом для розробки та документування найкращих практик.
  • Підтримувати дослідницькі та розробницькі заходи і брати участь у POC/POV, щоб сприяти майбутнім поліпшенням.

Ми шукаємо кандидатів, які мають:

  • Ступінь у галузі комп'ютерних наук, інженерії або спорідненій галузі.
  • 5+ років відповідного досвіду в HPC та технологіях AI.
  • Досвід роботи з інструментами планування завдань та оркестрації, такими як Slurm і Kubernetes (K8s).
  • Відмінне знання як операційних систем Windows, так і Linux (Redhat/CentOS та Ubuntu) та їх внутрішньої архітектури, включаючи мережеві та протоколи безпеки (TCP, DHCP, DNS), та налаштування брандмауерів.
  • Практичний досвід роботи з кількома рішеннями для зберігання даних, такими як Lustre, GPFS, ZFS і XFS.
  • Експертиза в програмуванні на Python і написанні скриптів bash.
  • Вміння працювати з інструментами автоматизації та управління конфігураціями, такими як Jenkins, Ansible, Puppet і Chef.
  • Глибокі знання мережевих протоколів, включаючи InfiniBand та Ethernet.
  • Досвід роботи з віртуальними системами, такими як VMware, Hyper-V, KVM або Citrix.

Щоб виділитися серед інших кандидатів:

  • Знання платформ хмарних обчислень (наприклад, AWS, Azure, Google Cloud).
  • Знання архітектури CPU та/або GPU.
  • Досвід роботи з обладнанням/програмним забезпеченням, спрямованим на GPU (DGX, CUDA).
  • Фонова робота з тканинами RDMA (InfiniBand або RoCE).
  • Вміння працювати з Kubernetes та мікросервісними контейнерними технологіями.

У NVIDIA, різноманітність є рушійною силою нашого іннова