Machine Learning Data Engineer
- Machine learning
- Seattle
- 08/28/2024
- -
Projektowanie i Budowa Pipeline'ów Danych: Tworzenie wydajnych, niezawodnych, strumieniowych i skalowalnych pipeline'ów danych przy użyciu narzędzi i technik zgodnych z branżowymi standardami, takich jak TorchData, WebDataset, Apache Parquet, Python i SQL.
Pozyskiwanie Danych: Opracowywanie strategii pozyskiwania danych od dostawców, zapewniając jakość i spójność danych.
Wstępne Przetwarzanie Danych: Implementacja równoległego przetwarzania wstępnego w celu czyszczenia, transformacji, deduplikacji, łączenia i normalizacji danych.
Kuratela i Wzbogacanie Danych: Kuratela, uzupełnianie i wzbogacanie zestawów danych w celu poprawy jakości danych i dostarczenia wartościowych informacji interesariuszom.
Generowanie Danych Syntetycznych: Współpraca z zespołami zajmującymi się danymi syntetycznymi w celu generowania danych i ich integracji z istniejącymi pipeline'ami.
Współpraca z Zespołami Klientów: Ścisła współpraca z naukowcami, inżynierami i zespołami produktowymi klientów w celu zrozumienia wymagań dotyczących danych i wspólnego dostarczania danych.
Monitorowanie, Utrzymanie i Aktualizacja: Monitorowanie pipeline'ów danych pod kątem wydajności, błędów i wąskich gardeł, regularne przeprowadzanie konserwacji i aktualizacji. Bieżące śledzenie najnowszych trendów i najlepszych praktyk.
Dokumentacja Techniczna: Dokumentowanie pipeline'ów danych, ustawień i procedur dla łatwego utrzymania i dzielenia się wiedzą.
Stopień licencjata z informatyki, technologii informacyjnej lub pokrewnej dziedziny.
Co najmniej 3 lata doświadczenia jako Inżynier Oprogramowania lub Inżynier Danych.
Silne umiejętności inżynierii oprogramowania, biegłość w Pythonie.
Doświadczenie z narzędziami i formatami przetwarzania danych, takimi jak Apache Parquet, WebDataset, TorchData, Pandas, skrypty powłoki, Protobuf, TFRecord.
Znajomość architektur magazynów danych i systemów opartych na chmurze (np. AWS S3).
Silne umiejętności rozwiązywania problemów i analityczne.
Doskonale rozwinięte umiejętności komunikacyjne i współpracy.
Stopień magistra z nauk o danych lub pokrewnej dziedziny.
Doświadczenie w kurateli i wzbogacaniu danych, szczególnie w przypadku dużych zbiorów danych tekstowych, obrazów i wideo.
Znajomość przetwarzania języka naturalnego (NLP), koncepcji i frameworków uczenia maszynowego (PyTorch).
Jako pracodawca zapewniający równe szanse, ICONMA zapewnia środowisko pracy, które wspiera i zachęca umiejętności wszystkich osób bez względu na rasę, kolor skóry, religię, płeć, orientację seksualną, tożsamość płciową lub ekspresję, pochodzenie etniczne, narodowość, wiek, stan niepełnosprawności, przynależność polityczną, predyspozycje genetyczne, stan cywilny, status chronionego weterana czy jakąkolwiek inną cechę chronioną przez prawo federalne, stanowe lub lokalne.