Senior HPC AI Engineer

Job expired!

NVIDIA poszukuje wykwalifikowanego Inżyniera HPC, który dołączy do naszego zespołu ds. weryfikacji oprogramowania End-to-End HPC/AI Infrastructure. Specjalizujemy się w budowaniu superkomputerów i klastrów HPC wykorzystujących przełomowe technologie. To wyjątkowa okazja, aby przyczynić się do najnowszych osiągnięć w dziedzinie sztucznej inteligencji i obliczeń GPU, dostarczając wgląd w projektowanie systemów na dużą skalę i mechanizmy tuningu dla dużych obliczeń.

Jako Starszy Inżynier HPC AI będziesz:

  • Projektować, wdrażać i utrzymywać duże klastry HPC/AI z monitorowaniem, logowaniem i możliwościami alarmowania.
  • Zarządzać harmonogramami zadań w systemach Linux oraz narzędziami orkiestracji.
  • Tworzyć i utrzymywać pipeline'y ciągłej integracji i dostarczania.
  • Rozwijać narzędzia automatyzacji do wdrażania i zarządzania środowiskami infrastruktury na dużą skalę.
  • Wdrażać rozwiązania monitorujące dla serwerów, sieci i systemów magazynowania danych.
  • Rozwiązywać problemy od poziomu sprzętowego do warstwy aplikacji.
  • Pełnić rolę zasobu technicznego w celu opracowania i dokumentowania najlepszych praktyk.
  • Wspierać działalność badawczo-rozwojową i angażować się w POC/POV, aby napędzać przyszłe poprawki.

Szukamy osób, które posiadają:

  • Dyplom z informatyki, inżynierii lub pokrewnego kierunku.
  • 5+ lat doświadczenia zawodowego w technologiach rozwiązań HPC i AI.
  • Doświadczenie w pracy z narzędziami do harmonogramowania zadań i orkiestracji, takimi jak Slurm i Kubernetes (K8s).
  • Doskonalą znajomość zarówno systemów operacyjnych Windows, jak i Linux (Redhat/CentOS i Ubuntu) oraz ich wnętrz, w tym sieci, protokoły bezpieczeństwa (TCP, DHCP, DNS) i konfiguracje firewalli.
  • Praktyczne doświadczenie z wieloma rozwiązaniami magazynującymi, takimi jak Lustre, GPFS, ZFS i XFS.
  • Wiedzę z programowania w Pythonie i pisaniu skryptów bash.
  • Biegłość w narzędziach automatyzacji i zarządzania konfiguracją, takich jak Jenkins, Ansible, Puppet i Chef.
  • Głęboką znajomość protokołów sieciowych, w tym InfiniBand i Ethernet.
  • Doświadczenie z systemami wirtualnymi, takimi jak VMware, Hyper-V, KVM lub Citrix.

Sposoby na wyróżnienie się wśród innych:

  • Znajomość platform obliczeniowych w chmurze (np. AWS, Azure, Google Cloud).
  • Wiedza o architekturach CPU i/lub GPU.
  • Doświadczenie w pracy z sprzętem/oprogramowaniem skupionym na GPU (DGX, CUDA).
  • Znajomość tkanin RDMA (InfiniBand lub RoCE).
  • Biegłość w technologii Kubernetes i mikrousług kontenerów.

W NVIDIA różnorodność jest siłą napędową naszego innowacyjnego ducha. Jesteśmy pracodawcą oferującym równe szanse i cenimy różnorodność w naszej firmie. Nie dyskryminujemy ze względu na rasę, religię, kolor skóry, pochodzenie narodowe, płeć, płeć biologiczną, wyrażanie płci, orientację seksualną, wiek, stan cywilny, status weterana lub niepeł