Data Engineer PySpark

Job expired!

Rejoignez notre équipe : Ingénieur de données - PySpark chez Sopra Steria

Description de l'entreprise

À propos de Sopra Steria : Entité technologique de premier plan en Europe, reconnue pour sa maîtrise en conseil, services numériques et développement logiciel. Sopra Steria aide ses clients à naviguer dans leur transformation numérique, en proposant des solutions sur mesure et durables qui combinent une vaste connaissance de l'industrie et des technologies de pointe. Engagée envers l'innovation et l'excellence, Sopra Steria croit en une approche centrée sur le client et en un avenir numérique plus radieux à travers le travail d'équipe. Avec une solide main-d'œuvre de 50 000 personnes dans près de 30 pays, nous avons réalisé un chiffre d'affaires formidable de 5,1 milliards d'euros en 2022.

Description du poste

Nous recherchons actuellement un Ingénieur de données hautement qualifié et passionné pour renforcer notre équipe dynamique. Ce rôle implique une collaboration étroite avec des scientifiques de données pour développer des modèles d'apprentissage machine efficaces en construisant et en optimisant des pipelines de données. Votre expertise dans des domaines spécifiques sera essentielle pour maintenir et améliorer nos opérations de données.

Responsabilités clés :

  • Collaborer avec des scientifiques de données pour concevoir, affiner et mettre en œuvre des pipelines d'apprentissage machine.
  • Utiliser PySpark pour un traitement, une transformation et une préparation des données robustes avant l'entraînement des modèles.
  • Employer AWS EMR et S3 pour garantir des solutions de gestion et de stockage des données scalables et efficaces.
  • Créer et gérer des workflows ETL en utilisant Stream sets pour une ingestion et une transformation efficaces des données.
  • Concevoir et maintenir des pipelines pour livrer des ensembles de données d'entraînement et d'inférence de qualité supérieure.
  • Travailler à travers des équipes fonctionnelles pour garantir un déploiement fluide et des capacités d'inférence en temps réel / quasi temps réel.
  • Optimiser les pipelines pour améliorer la performance, l'évolutivité et la fiabilité.
  • Gérer les politiques et les contrôles IAM pour sécuriser efficacement l'accès et la gestion des données.
  • Optimiser les travaux Spark et l'architecture pour un traitement des données à haute performance.

Exigences :

Obligatoires :
  • Compétences avancées en SQL, y compris les fonctions de fenêtrage, et une connaissance approfondie de l'architecture Spark, PySpark ou Scala avec Spark, Hadoop.
  • Capacité démontrée à concevoir et à mettre en œuvre des pipelines de données robustes.
  • Forte aptitude à résoudre les problèmes et collaboration efficace au sein d'équipes.
  • Excellentes compétences de communication avec une maîtrise dans la traduction de concepts techniques pour des parties prenantes non techniques.
Souhaitables :
  • Expérience préalable avec Airflow, S3 et Stream sets, ou outils ETL similaires.
  • Connaissance des architectures d'inférence en temps réel ou quasi temps réel.
  • Compréhension de base de Kafka, AWS IAM, AWS EMR et Snowflake.

Qualifications :

BE ou qualification similaire avec une expérience totale attendue de 06-08 ans dans des domaines pertinents.

Informations supplémentaires :

Chez Sopra Steria, nous nous opposons à toutes formes de discrimination. Nous sommes f