NVIDIA poszukuje wykwalifikowanego Inżyniera HPC, który dołączy do naszego zespołu ds. weryfikacji oprogramowania End-to-End HPC/AI Infrastructure. Specjalizujemy się w budowaniu superkomputerów i klastrów HPC wykorzystujących przełomowe technologie. To wyjątkowa okazja, aby przyczynić się do najnowszych osiągnięć w dziedzinie sztucznej inteligencji i obliczeń GPU, dostarczając wgląd w projektowanie systemów na dużą skalę i mechanizmy tuningu dla dużych obliczeń.
Jako Starszy Inżynier HPC AI będziesz:
- Projektować, wdrażać i utrzymywać duże klastry HPC/AI z monitorowaniem, logowaniem i możliwościami alarmowania.
- Zarządzać harmonogramami zadań w systemach Linux oraz narzędziami orkiestracji.
- Tworzyć i utrzymywać pipeline'y ciągłej integracji i dostarczania.
- Rozwijać narzędzia automatyzacji do wdrażania i zarządzania środowiskami infrastruktury na dużą skalę.
- Wdrażać rozwiązania monitorujące dla serwerów, sieci i systemów magazynowania danych.
- Rozwiązywać problemy od poziomu sprzętowego do warstwy aplikacji.
- Pełnić rolę zasobu technicznego w celu opracowania i dokumentowania najlepszych praktyk.
- Wspierać działalność badawczo-rozwojową i angażować się w POC/POV, aby napędzać przyszłe poprawki.
Szukamy osób, które posiadają:
- Dyplom z informatyki, inżynierii lub pokrewnego kierunku.
- 5+ lat doświadczenia zawodowego w technologiach rozwiązań HPC i AI.
- Doświadczenie w pracy z narzędziami do harmonogramowania zadań i orkiestracji, takimi jak Slurm i Kubernetes (K8s).
- Doskonalą znajomość zarówno systemów operacyjnych Windows, jak i Linux (Redhat/CentOS i Ubuntu) oraz ich wnętrz, w tym sieci, protokoły bezpieczeństwa (TCP, DHCP, DNS) i konfiguracje firewalli.
- Praktyczne doświadczenie z wieloma rozwiązaniami magazynującymi, takimi jak Lustre, GPFS, ZFS i XFS.
- Wiedzę z programowania w Pythonie i pisaniu skryptów bash.
- Biegłość w narzędziach automatyzacji i zarządzania konfiguracją, takich jak Jenkins, Ansible, Puppet i Chef.
- Głęboką znajomość protokołów sieciowych, w tym InfiniBand i Ethernet.
- Doświadczenie z systemami wirtualnymi, takimi jak VMware, Hyper-V, KVM lub Citrix.
Sposoby na wyróżnienie się wśród innych:
- Znajomość platform obliczeniowych w chmurze (np. AWS, Azure, Google Cloud).
- Wiedza o architekturach CPU i/lub GPU.
- Doświadczenie w pracy z sprzętem/oprogramowaniem skupionym na GPU (DGX, CUDA).
- Znajomość tkanin RDMA (InfiniBand lub RoCE).
- Biegłość w technologii Kubernetes i mikrousług kontenerów.
W NVIDIA różnorodność jest siłą napędową naszego innowacyjnego ducha. Jesteśmy pracodawcą oferującym równe szanse i cenimy różnorodność w naszej firmie. Nie dyskryminujemy ze względu na rasę, religię, kolor skóry, pochodzenie narodowe, płeć, płeć biologiczną, wyrażanie płci, orientację seksualną, wiek, stan cywilny, status weterana lub niepeł