Data Engineer PySpark

Job expired!

O nas w Sopra Steria: Czołowa jednostka technologiczna w Europie, rozpoznawana za swoje kompetencje w doradztwie, usługach cyfrowych i rozwoju oprogramowania. Sopra Steria wspiera klientów w ich cyfrowej transformacji, oferując dostosowane, zrównoważone rozwiązania łączące obszerną wiedzę branżową z najnowocześniejszymi technologiami. Zobowiązani do innowacji i doskonałości, w Sopra Steria wierzymy w podejście skoncentrowane na kliencie i jaśniejszą cyfrową przyszłość przez pracę zespołową. Dysponując solidną siłą roboczą 50 000 osób w prawie 30 krajach, osiągnęliśmy imponujący obrót w wysokości 5,1 miliarda euro w 2022 roku.

Obecnie poszukujemy wysoce wykwalifikowanego i pasjonującego się pracą Inżyniera Danych, aby wzmocnić nasz dynamiczny zespół. Rola ta wiąże się z bliską współpracą z Naukowcami Danych w celu opracowania wydajnych modeli uczenia maszynowego poprzez budowanie i optymalizowanie łańcuchów przetwarzania danych. Twoja specjalistyczna wiedza będzie kluczowa w utrzymaniu i doskonaleniu naszych operacji danych.

  • Współpraca z Naukowcami Danych w celu opracowywania, doskonalenia i wdrażania łańcuchów uczenia maszynowego.
  • Wykorzystanie PySpark do solidnego przetwarzania danych, ich transformacji i przygotowania do szkolenia modeli.
  • Użycie AWS EMR i S3 do zapewnienia skalowalnych i wydajnych rozwiązań obsługi i przechowywania danych.
  • Tworzenie i zarządzanie przepływami pracy ETL za pomocą Stream sets dla efektywnego pobierania i transformacji danych.
  • Projektowanie i utrzymanie łańcuchów dostarczających dane najwyższej jakości do szkolenia i wnioskowania.
  • Współpraca z zespołami funkcjonalnymi, aby zagwarantować bezproblemowe wdrażanie i zdolności wnioskowania w czasie rzeczywistym / bliskim czasowi rzeczywistym.
  • Optymalizacja łańcuchów dla lepszej wydajności, skalowalności i niezawodności.
  • Zarządzanie politykami IAM i kontrolami do efektywnego zabezpieczania dostępu i zarządzania danymi.
  • Optymalizacja zadań Spark i architektury dla wysokowydajnego przetwarzania danych.

Obowiązkowe:

  • Zaawansowane umiejętności SQL, w tym funkcje okienkowe, oraz dogłębna wiedza o architekturze Spark, PySpark lub Scala z Spark, Hadoop.
  • Wykazana zdolność do projektowania i wdrażania solidnych łańcuchów przetwarzania danych.
  • Silne umiejętności rozwiązywania problemów i efektywnej współpracy w zespołach.
  • Doskonałe umiejętności komunikacyjne z biegłością w tłumaczeniu koncepcji technicznych na język zrozumiały dla osób niezwiązanych z technologią.
Preferowane:
  • Doświadczenie z Airflow, S3 i Stream sets albo podobnymi nar