Ingénieur de Données ( Databricks )
- Data Engineer
- Other places
- $111 K - $183 K
- Full Time
Description du Poste:
En tant qu'Ingénieur de Données Azure, vous jouerez un rôle crucial dans la conception, le développement, et l'entretien des solutions de données sur la plateforme Azure. Vos responsabilités principales consisteront à construire et optimiser des pipelines de données, garantir la qualité des données, et mettre en œuvre la logique de traitement et de transformation des données. Pour exceller dans ce rôle, votre expertise en Azure Databricks, Python, SQL, Azure Data Factory (ADF), et PySpark/Scala sera essentielle. Vos contributions permettront la prise de décision et le développement d'insights basés sur les données pour notre organisation.
Responsabilités Clés:
1. Conception et Développement de Pipelines de Données:
- Concevoir et mettre en œuvre des pipelines de données évolutifs et efficaces en utilisant Azure Databricks, PySpark, et Scala.
- Gérer l'ingestion de données, les processus de transformation des données, et les processus de chargement des données.
2. Modélisation des Données et Conception de Base de Données:
- Créer et implémenter des modèles de données pour prendre en charge un stockage, une récupération, et une analyse de données efficaces.
- Collaborer avec des bases de données relationnelles, des lacs de données, et d'autres solutions de stockage sur la plateforme Azure.
3. Intégration et Orchestration des Données:
- Exploiter Azure Data Factory (ADF) pour orchestrer les flux de travail d'intégration de données.
- Gérer le mouvement des données entre différentes sources de données et cibles, notamment la planification et la surveillance des pipelines de données.
4. Qualité et Gouvernance des Données:
- Mettre en œuvre des contrôles de qualité des données, des règles de validation, et des processus de gouvernance des données.
- Assurer l'exactitude, la cohérence, et la conformité des données avec les réglementations et normes pertinentes.
5. Optimisation des Performances:
- Optimiser les pipelines de données et les requêtes pour améliorer les performances du système et réduire le temps de traitement.
- Régler les requêtes SQL, optimiser la logique de transformation des données, et utiliser des techniques de mise en cache au besoin.
6. Surveillance et Dépannage:
- Surveiller en continu les pipelines de données et identifier les goulots d'étranglement des performances.
- Résoudre proactivement les problèmes liés à l'ingestion de données, au traitement des données, et à la transformation des données.
- Collaborer avec des équipes multifonctionnelles pour résoudre les problèmes liés aux données.
7. Documentation et Collaboration:
- Documenter les pipelines de données, les flux de données, et les processus de transformation de données.
- Collaborer étroitement avec les data scientists, les analystes, et d'autres parties prenantes pour comprendre leurs besoins en matière de données et fournir un soutien en ingénierie des données.
Exigences
5+ années d'expérience en tant qu'ingénieur de données.
- Compétence en programmation Python ou Scala.
- Solides compétences en résolution de problèmes dans un environnement de big data.
- Expérience dans la construction de pipelines de données 'big data', d'architectures, et de jeux de données à partir de diverses applications métier.
- Familiarité avec la mise en file d'attente des messages, le traitement en flux, et les magasins de données 'big data' évolutifs.
- Esprit d'entrepreneur, dédié à la production de résultats de haute qualité.
- Diplôme en informatique ou dans un domaine connexe, comme les mathématiques appliquées.
- Expérience dans un rôle technique face au client (de préférence de l'ingénierie de solutions), ou une volonté d'assumer un tel rôle.
- Forte expertise en Azure Databricks, Python, SQL, ADF, PySpark, et Scala.
- Compétence dans la conception et le développement de pipelines de données et des processus ETL.
- Bonne compréhension des concepts de modélisation de données et des principes de conception de bases de données.
- Connaissance de l'intégration de données et de l'orchestration avec Azure Data Factory.