Concevoir, développer et maintenir des pipelines de données en utilisant nApache Spark pour traiter et transformer efficacement de grands volumes de données.
Collaborer avec les architectes de données et autres parties prenantes pour définir l'architecture de données et les meilleures pratiques.
Veiller à ce que les modèles et structures de données soient en adéquation avec les exigences de l'entreprise et soient évolutifs pour les besoins futurs.
Travailler sur le traitement des données en temps réel et le streaming en utilisant Spark Streaming.
Optimiser les jobs Spark et le code Java pour les performances, la scalabilité et l'utilisation des ressources.
Surveiller et dépanner les problèmes de pipeline de données pour garantir un temps d'arrêt minimal et une efficacité maximale.
Mettre en oeuvre des vérifications de qualité des données, de validation des données et des mécanismes de gestion des erreurs pour maintenir l'intégrité des données.
Veiller à la conformité avec les politiques de gouvernance et de sécurité des données.
Documenter les processus d'ingénierie des données, les flux de données et les configurations pour référence future.
Collaborer avec les data scientists, les analystes et les parties prenantes de l'entreprise pour comprendre les exigences en matière de données et livrer des solutions qui répondent à leurs besoins.
Mettre en place des systèmes de surveillance et d'alerte pour identifier et résoudre proactivement les problèmes de pipeline de données.
Effectuer des tâches de maintenance de routine et maintenir à jour les logiciels et les systèmes.
Exigences
Baccalauréat ou diplôme supérieur en informatique, technologie de l'information ou un domaine connexe.
Connaissances en Java pour le développement de logiciels.
Expérience extensive avec Apache Spark, y compris Spark SQL et Spark Streaming.
Maîtrise des technologies et des frameworks de big data tels que Hadoop, HDFS et des outils connexes.
Connaissances des concepts et des technologies de l'entrepôt de données.
Expérience avec les systèmes de base de données (SQL et NoSQL).
Fortes compétences en résolution de problèmes et capacité à travailler dans un environnement collaboratif et orienté équipe.
Excellentes compétences en communication et en documentation.
Compréhension des meilleures pratiques en matière de sécurité, de confidentialité et de conformité des données.