NVIDIA шукає досвідченого HPC Інженера, щоб приєднатися до нашої команди Інфраструктури Кінцевої Перевірки Програмного Забезпечення HPC/AI. Ми спеціалізуємося на будівництві суперкомп'ютерів і кластерів HPC, використовуючи новітні технології. Це унікальна можливість внести свій вклад у найсучасніші досягнення штучного інтелекту та обчислення з використанням GPU, надаючи розуміння щодо проектування систем на великому масштабі та механізмів налаштування для масштабних обчислювальних запусків.
Як старший HPC AI інженер, ви будете:
- Проєктувати, впроваджувати та підтримувати великомасштабні HPC/AI кластери зі здатністю моніторингу, логування та сповіщення.
- Керувати робочими графіками та інструментами оркестрації для Linux.
- Розробляти та підтримувати конвеєри для безперервної інтеграції та доставки.
- Розробляти автоматизаційні інструменти для розгортання та управління великомасштабними інфраструктурними середовищами.
- Впроваджувати рішення для моніторингу серверів, мережі та систем зберігання.
- Вирішувати проблеми від рівня апаратного забезпечення до рівня додатків.
- Служити технічним ресурсом для розробки та документування найкращих практик.
- Підтримувати дослідницькі та розробницькі заходи і брати участь у POC/POV, щоб сприяти майбутнім поліпшенням.
Ми шукаємо кандидатів, які мають:
- Ступінь у галузі комп'ютерних наук, інженерії або спорідненій галузі.
- 5+ років відповідного досвіду в HPC та технологіях AI.
- Досвід роботи з інструментами планування завдань та оркестрації, такими як Slurm і Kubernetes (K8s).
- Відмінне знання як операційних систем Windows, так і Linux (Redhat/CentOS та Ubuntu) та їх внутрішньої архітектури, включаючи мережеві та протоколи безпеки (TCP, DHCP, DNS), та налаштування брандмауерів.
- Практичний досвід роботи з кількома рішеннями для зберігання даних, такими як Lustre, GPFS, ZFS і XFS.
- Експертиза в програмуванні на Python і написанні скриптів bash.
- Вміння працювати з інструментами автоматизації та управління конфігураціями, такими як Jenkins, Ansible, Puppet і Chef.
- Глибокі знання мережевих протоколів, включаючи InfiniBand та Ethernet.
- Досвід роботи з віртуальними системами, такими як VMware, Hyper-V, KVM або Citrix.
Щоб виділитися серед інших кандидатів:
- Знання платформ хмарних обчислень (наприклад, AWS, Azure, Google Cloud).
- Знання архітектури CPU та/або GPU.
- Досвід роботи з обладнанням/програмним забезпеченням, спрямованим на GPU (DGX, CUDA).
- Фонова робота з тканинами RDMA (InfiniBand або RoCE).
- Вміння працювати з Kubernetes та мікросервісними контейнерними технологіями.
У NVIDIA, різноманітність є рушійною силою нашого іннова