Senior HPC AI Engineer

AI Engineer
Other places
06/16/2024
-

Job expired!

NVIDIA poszukuje wykwalifikowanego Inżyniera HPC, który dołączy do naszego zespołu ds. weryfikacji oprogramowania End-to-End HPC/AI Infrastructure. Specjalizujemy się w budowaniu superkomputerów i klastrów HPC wykorzystujących przełomowe technologie. To wyjątkowa okazja, aby przyczynić się do najnowszych osiągnięć w dziedzinie sztucznej inteligencji i obliczeń GPU, dostarczając wgląd w projektowanie systemów na dużą skalę i mechanizmy tuningu dla dużych obliczeń.

Jako Starszy Inżynier HPC AI będziesz:

Projektować, wdrażać i utrzymywać duże klastry HPC/AI z monitorowaniem, logowaniem i możliwościami alarmowania.
Zarządzać harmonogramami zadań w systemach Linux oraz narzędziami orkiestracji.
Tworzyć i utrzymywać pipeline'y ciągłej integracji i dostarczania.
Rozwijać narzędzia automatyzacji do wdrażania i zarządzania środowiskami infrastruktury na dużą skalę.
Wdrażać rozwiązania monitorujące dla serwerów, sieci i systemów magazynowania danych.
Rozwiązywać problemy od poziomu sprzętowego do warstwy aplikacji.
Pełnić rolę zasobu technicznego w celu opracowania i dokumentowania najlepszych praktyk.
Wspierać działalność badawczo-rozwojową i angażować się w POC/POV, aby napędzać przyszłe poprawki.

Szukamy osób, które posiadają:

Dyplom z informatyki, inżynierii lub pokrewnego kierunku.
5+ lat doświadczenia zawodowego w technologiach rozwiązań HPC i AI.
Doświadczenie w pracy z narzędziami do harmonogramowania zadań i orkiestracji, takimi jak Slurm i Kubernetes (K8s).
Doskonalą znajomość zarówno systemów operacyjnych Windows, jak i Linux (Redhat/CentOS i Ubuntu) oraz ich wnętrz, w tym sieci, protokoły bezpieczeństwa (TCP, DHCP, DNS) i konfiguracje firewalli.
Praktyczne doświadczenie z wieloma rozwiązaniami magazynującymi, takimi jak Lustre, GPFS, ZFS i XFS.
Wiedzę z programowania w Pythonie i pisaniu skryptów bash.
Biegłość w narzędziach automatyzacji i zarządzania konfiguracją, takich jak Jenkins, Ansible, Puppet i Chef.
Głęboką znajomość protokołów sieciowych, w tym InfiniBand i Ethernet.
Doświadczenie z systemami wirtualnymi, takimi jak VMware, Hyper-V, KVM lub Citrix.

Sposoby na wyróżnienie się wśród innych:

Znajomość platform obliczeniowych w chmurze (np. AWS, Azure, Google Cloud).
Wiedza o architekturach CPU i/lub GPU.
Doświadczenie w pracy z sprzętem/oprogramowaniem skupionym na GPU (DGX, CUDA).
Znajomość tkanin RDMA (InfiniBand lub RoCE).
Biegłość w technologii Kubernetes i mikrousług kontenerów.

W NVIDIA różnorodność jest siłą napędową naszego innowacyjnego ducha. Jesteśmy pracodawcą oferującym równe szanse i cenimy różnorodność w naszej firmie. Nie dyskryminujemy ze względu na rasę, religię, kolor skóry, pochodzenie narodowe, płeć, płeć biologiczną, wyrażanie płci, orientację seksualną, wiek, stan cywilny, status weterana lub niepeł