Sr. Ingénieur de Données - Bases de Données Vectorielles | GCP
Kaizen Analytix LLC, une entreprise de produits et services analytiques qui offre aux clients une rapidité inégalée pour obtenir de la valeur grâce à des solutions analytiques et des informations commerciales exploitables, est à la recherche de candidats qualifiés pour le poste d'Ingénieur en Données Senior qui sont des professionnels hautement qualifiés et expérimentés responsables de la conception, du développement et de la maintenance de pipelines de données et d'entrepôts de données sur Google Cloud Platform. Le candidat idéal aura une solide compréhension des principes et des meilleures pratiques de l'ingénierie des données, ainsi qu'une expérience de travail avec des ensembles de données massifs (plus de 100 Go) non structurés, comme des vidéos, des images audio et du texte. Nous recherchons des candidats capables de soutenir des projets d'IA avec l'ingénierie des données requise pour stocker des résultats basés sur l'apprentissage profond, tels que les embeddings vectoriels, en utilisant de puissantes technologies de calcul distribué.
Responsabilités:
Analyse et Conception
- Organise des sessions de recueil d'informations avec les utilisateurs.
- Consulte les Responsables Techniques et les Propriétaires d'Entreprises pour identifier et analyser les besoins et les problèmes technologiques.
- Réalise des diagrammes de flux de données et/ou de modélisation des processus (architecture de code).
- Conçoit, développe et maintient des pipelines de données et des entrepôts de données sur Google Cloud Platform
- Travaille avec les parties prenantes pour recueillir les exigences et définir les modèles de données.
- Développe et déploie des pipelines de données en utilisant les outils et services de Google Cloud Platform.
- Met en œuvre des contrôles de qualité des données et une surveillance.
- Résout les problèmes de données et les problèmes de performance.
- Travaille avec d'autres ingénieurs pour développer et maintenir l'infrastructure de données de l'entreprise.
- Se tient au courant des dernières technologies et tendances en matière d'ingénierie des données.
Alignement de la Stratégie
- Travaille avec les autres membres de l'équipe technique pour améliorer continuellement les stratégies d'implémentation, les normes de développement et d'autres processus et documentations du département.
- Fournit une assistance technique et un mentorat aux Ingénieurs de Données de niveau inférieur.
- Communique régulièrement les plans, le statut et les problèmes à la direction
- Se conforme aux normes, politiques, procédures du département et aux meilleures pratiques de l'industrie.
Exigences du Poste:
- Baccalauréat ou maîtrise en informatique, systèmes d'information ou dans un domaine connexe
- Plus de 5 ans d'expérience en ingénierie des données
- Il est obligatoire d'avoir la certification de l'ingénieur de données professionnelle GCP
- Expérience dans tout projet de migration impliquant l'entreposage de données, la migration de bases de données d'une technologie à une autre.
- Excellente maîtrise de la programmation Python pour développer des scripts d'ETL.
- Maitrise des principes et des meilleures pratiques de l'ingénierie des données.
- Compréhension approfondie de Vertex AI et de la recherche vectorielle.
- Expérience avec d'autres technologies de Google Cloud Platform, y compris BigQuery, Cloud Dataproc, Cloud Dataflow et Cloud Data Fusion.
- Expérience avec la modélisation et l'entreposage de données
- Expérience avec les contrôles de qualité des données et la surveillance
- Expérience avec des outils d'IaC comme Terraform, GCP Python Clients
- Doit être au courant des pipelines CI/CD et maîtriser l'utilisation d'outils tels que Jenkins, Cloud Build et TeamCity pour la création des pipelines nécessaires pour le CI/CD.
- Prend l'initiative et propose des solutions et des contournements; prêt à travailler selon des délais stricts.
- Résout les problèmes majeurs d'implémentation des clients et démontre la capacité de conduire à une résolution réussie.
- Responsable de la conception de solutions de bout en bout, de l'architecture et des meilleures pratiques pour l'intégration avec l'écosystème et l'infrastructure GCP.
- Capacité de collaborer avec les architectes de domaine pour développer l'architecture de solution de bout en bout, y compris les domaines d'application, d'infrastructure, de données, d'intégration et de sécurité.
Bon à avoir:
- Expérience requise avec l'analyse de données des médias sociaux impliquant des volumes de données élevés et des fréquences élevées
- Expérience de travail sur des projets de développement d'applications centrés sur des activités d'ingénierie des données en utilisant l'un des langages de programmation (Python, SQL, Java).
- Expérience antérieure avec des outils et concepts de big data tels que Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (orchestration)