Machine Learning Engineer, Training

Job expired!

Waymo, pionierska firma technologii autonomicznej jazdy, ma misję stać się najbardziej zaufanym kierowcą. Powstała jako Google Self-Driving Car Project w 2009 roku, Waymo jest zaangażowane w rozwój Najbardziej Doświadczonego Kierowcy Świata™ — Kierowcy Waymo — w celu poprawy mobilności i ratowania tysięcy żyć utraconych w wyniku incydentów drogowych. Kierowca Waymo napędza Waymo One, całkowicie autonomiczną usługę ride-hailing, i jest dostosowany do różnych platform pojazdów oraz przypadków użycia. Z ponad milionem podróży tylko dla pasażerów, Kierowca Waymo autonomicznie przejechał dziesiątki milionów mil na publicznych drogach i wykonał dziesiątki miliardów symulacji w ponad 13 stanach USA.

Zespół Infrastruktury ML Waymo ściśle współpracuje zarówno z zespołami badawczymi, jak i produkcyjnymi, aby rozwijać modele w zakresie Percepcji i Planowania, które są istotne dla naszego oprogramowania do autonomicznej jazdy. Nasze rozwiązania, opracowywane w ścisłej współpracy z zespołami Google, wspierają cały cykl życia rozwoju modelu, specjalizując się w skalowaniu modeli i rozwiązywaniu unikalnych wyzwań związanych z ML dla autonomicznej jazdy.

Tworzymy biblioteki i narzędzia do poprawy TensorFlow i JAX, mierząc się z wyzwaniami skalowalności, niezawodności i wydajności. Kluczowe obszary zainteresowania to:

  • Trening na dużą skalę i poprawa efektywności akceleratorów ML
  • Dopasowanie multimodalnych LLM do zadań związanych z autonomiczną jazdą
  • Odkrywanie hiperparametrów i ponowne trenowanie sieci neuronowych
  • Obliczanie niezawodnych i bezszumowych metryk walidacyjnych
  • Walidacja nowo przeszkolonych DNN w stosie oprogramowania pokładowego

W tej hybrydowej roli, raportującej do Menedżera Technicznego ds. Sztucznej Inteligencji, będziesz:

  • Opracowywać infrastrukturę do rozproszonego treningu, w tym harmonogramowanie zadań, zarządzanie zasobami, dystrybucję danych i synchronizację modelu
  • Implementować automatyzację w zakresie zaopatrzenia, wdrażania, monitorowania i skalowania infrastruktury treningowej
  • Monitorować zdrowie systemu, diagnozować i rozwiązywać problemy oraz wykonywać rutynową konserwację
  • Identyfikować wąskie gardła wydajności i możliwości optymalizacji
  • Poprawiać doświadczenie deweloperów i wydajność naszej skalowalnej ramy ML

Wymagane:

  • Tytuł licencjata w dziedzinie Informatyki, Inżynierii lub pokrewnej dziedziny, lub 2+ lata równoważnego doświadczenia
  • Doświadczenie z zasadami systemów rozproszonych i budowaniem systemów rozproszonych dla środowisk produkcyjnych
  • Biegłość w Pythonie lub C++
  • Doświadczenie z frameworkami Machine Learning (np. TensorFlow, PyTorch) i rozproszonymi algorytmami treningowymi
  • Zdolność do debugowania złożonych problemów systemów rozproszonych
  • Doskonałe umiejętności komunikacyjne do aktualizacji i rozwiązywania problemów z klientami i partnerami

Preferowane:

  • Doświadczenie z narzędziami do profilowania akceleratorów ML
  • Znajomość platform ch