Inżynier ML Ops, HPC

Other
Other places
$69 K - $128 K

Full Time

Job expired!

O Stability:

Stability AI to firma zajmująca się sztuczną inteligencją, którą prowadzi misja. Jesteśmy firmą open-source, z głębokim szacunkiem dla rzeczywistych konsekwencji i zastosowań. Nasze znaczące postępy wynikają z naszej różnorodności, co pozwala nam działać w wielu dziedzinach i oddziałach. Nie boimy się wyzwań związanych z ustanowionymi standardami i eksplorujemy kreatywność. Dążymy do wypracowania przełomowych pomysłów i przekształcenia ich w konkretnych rozwiązań. Nasze dynamiczne społeczności składają się z ekspertów, liderów i partnerów z całego świata, którzy tworzą zaawansowane modele otwartej sztucznej inteligencji dla obrazów, języków, dźwięków, filmów, 3D i biologii.

O roli:

Szukamy doświadczonego inżyniera ML Ops, który ma silny nacisk na obliczenia wysokiej wydajności (HPC), do naszego zespołu. Głównym zadaniem tej roli jest skuteczne przełamanie luki między naszymi zespołami inżynierskimi, zapewniając bezproblemową integrację i działanie modeli Machine Learning w środowisku High Performance Computing. Idealny kandydat będzie nadzorować wdrażanie narzędzi obsługi i treningu do głębokich modeli uczenia, oraz zarządzać niezbędnymi modyfikacjami w infrastrukturze hostingowej, aby zoptymalizować wydajność.

Odpowiedzialności:

Ścisła współpraca z zespołami inżynierskimi, aby umożliwić bezproblemową interakcję i integrację obsługi modeli Machine Learning i szkolenia w ramach HPC.
Nadzorowanie i optymalizacja wdrażania narzędzi do szkolenia i wnioskowania, gwarantując, że działają one efektywnie w wyznaczonej infrastrukturze.
Wdrażanie niezbędnych modyfikacji w infrastrukturze hostingu, aby spełniać specyficzne potrzeby modeli ML, zapewniając ich skuteczne działanie zarówno w chmurach, jak i w środowiskach HPC.
Ułatwianie harmonijnego działania usług chmurowych i systemów HPC, pozwalając im działać niezależnie bez wzajemnej ingerencji.
Zapewnienie udanej integracji kontenerów wnioskujących i zasobów, umożliwiając równoczesne operacje w zjednoczonym stylu.
Aktywne uczestnictwo w optymalizacji wydajności w głębokim uczeniu, wykorzystując solidne zrozumienie kompilatorów i ich roli w zwiększaniu efektywności.
Wykazywanie kompetencji technicznych w zakresie Linuxa, SLURM i doświadczenia z infrastrukturą AWS lub GCP, optymalizując środowisko dla operacji ML.
Współpraca z szerszym zespołem w celu projektowania, budowy i utrzymania efektywnych i skalowalnych systemów wspierających wdrożenie i wykonanie modeli Machine Learning.
Wykazanie władzy w językach programowania takich jak Python, C++, i TypeScript, zapewniając rozwój i zarządzanie różnymi narzędziami i integracjami.

Wymagania:

Znajomość języków programowania takich jak Python, C/C ++ i TypeScript
Doświadczenie w pracy w środowiskach chmurowych, takich jak AWS, GCP, Cloudflare, itp.
Doświadczenie z narzędziami do zarządzania klastrami HPC, takimi jak Slurm, i systemami takimi jak Linux.
Znajomość GPU i innych akceleratorów, takich jak Gaudi2 i TPU.
Solidne doświadczenie w zarządzaniu i koordynacji zespołów wielofunkcyjnych w szybkim tempie.
Zdolność do rozwiązywania skomplikowanych problemów technicznych w środowisku HPC, zapewniając ciągłe, płynne działanie modeli ML.
Udowodnione doświadczenie w projektowaniu i wdrażaniu rozwiązań o wysokiej dostępności, skalowalności i wydajności.
Silne umiejętności komunikacyjne i zdolność do przekazywania skomplikowanych koncepcji technicznych osobom nienależącym do branży technicznej.
Znajomość metodologii Agile, umożliwiających szybkie dostosowanie się do zmieniających się wymagań projektu.

Równość szans w zatrudnieniu:

Jesteśmy pracodawcą, który daje równe szanse i nie dyskryminuje ze względu na rasę, religię, narodowość, płeć, orientację seksualną, wiek, status weterana, niepełnosprawność lub jakiekolwiek inne statusy prawnie chronione.