HPC Engineer, Machine Learning Infrastructure - EMEA Remote

Job expired!

Witamy w Hugging Face! Naszą misją jest rozwój uczenia maszynowego i uczynienie go bardziej dostępnym dla każdego. Nasza podróż obejmuje przyczynianie się do rozwoju technologii dla lepszej przyszłości.

Stworzyliśmy najszybciej rosnącą, open-source'ową bibliotekę modeli wstępnie wytrenowanych na świecie. Z ponad 1 milionem modeli i 320 tysiącami gwiazdek na GitHubie, technologia Hugging Face jest używana w produkcji przez ponad 15 000 firm, w tym przez czołowe organizacje AI, takie jak Google, Elastic, Salesforce, Grammarly i NASA.

Poszukujemy doświadczonego inżyniera HPC do rozwoju i skalowania naszych rozproszonych, dużych klastrów. Idealny kandydat będzie mieć solidne doświadczenie w tworzeniu dużych klastrów obliczeniowych dla przepływów pracy AI oraz prowadzeniu zespołów w tworzeniu najlepszych praktyk dla niezawodności i skalowalności.

  • Projektowanie, rozwijanie, wdrażanie i utrzymywanie niezawodnej i skalowalnej infrastruktury dla efektywnych zadań treningowych.
  • Zarządzanie dużymi klastrami obliczeniowymi dla szkoleń i rozwoju AI.
  • Tworzenie narzędzi i infrastruktury do abstrakcji obliczeń i przechowywania w przepływach pracy ML.
  • Mierzenie i optymalizowanie wydajności systemu.
  • Monitorowanie i rozwiązywanie problemów infrastrukturalnych w celu zapewnienia wysokiej dostępności i wydajności zadań AI.
  • Śledzenie najnowszych technologii infrastruktury AI i rekomendowanie ulepszeń.
  • Współpraca z zespołami inżynierii oprogramowania AI w celu zapewnienia, że infrastruktura wspiera wymagania systemowe.
  • Zapewnianie podstawowego wsparcia operacyjnego i inżynieryjnego dla wielu zespołów.
  • 7+ lat doświadczenia na stanowisku DevOps lub inżynier infrastruktury, koncentrując się na infrastrukturze uczenia maszynowego i dużych klastrach GPU.
  • Ekspertyza w pracy z dostawcami chmur, takimi jak AWS, GCP, frameworkami infra-as-code oraz narzędziami do obserwowalności.
  • Biegłość w pracy z Python Scientific stack i Pytorch.
  • Doświadczenie w strukturach danych, modelowaniu danych i zarządzaniu bazami danych, w tym systemami przechowywania obiektów i plików.
  • Silne umiejętności komunikacyjne, współpracy i dokumentacji.
  • Znajomość systemu Linux, Git, kontenerów, sieci i narzędzi wiersza poleceń.
  • Silne umiejętności programowania w Pythonie, Golangu i/lub Rusta.

Jeśli jesteś pasjonatem inżynierii HPC z głębokim zainteresowaniem AI i doskonalisz się w wymagającym, innowacyjnym środowisku, chcemy cię usłyszeć. Dołącz do naszego zespołu, aby pomóc w rozwoju technologii AI, pracując w profesjonalnym i stymulującym otoczeniu.

Jesteśmy zobowiązani do budowania zróżnicowanego i inkluzywnego miejsca pracy. Hugging Face jest pracodawcą oferującym równe szanse i celebruje różnorodność. Nie dyskryminujemy na podstawie rasy, religii, koloru skóry, pochodzenia narodowego, płci, orientacji seksualnej, wieku, stanu cywilnego, statusu weterana ani stanu zdrowia.

W Hugging Face będziesz współpracować z niektórymi z najlepszych umysłów w branży. Promujemy kulturę ciągłego rozwoju i zapewniamy zwrot kosztów za odpowiednie konferencje, szkolenia i edukację.