Senior Data Engineer

Data Engineer
London
06/17/2024
-

Job expired!

À propos de nous

Fondé en 2018, Causaly révolutionne la manière dont les humains acquièrent des connaissances et développent des idées en biomédecine. Notre plateforme d'IA générative de pointe améliore les perspectives de recherche et l'automatisation des connaissances, permettant à des milliers de scientifiques de découvrir des preuves essentielles à partir de millions de publications académiques, d'essais cliniques, de documents réglementaires, de brevets et d'autres sources de données en quelques minutes seulement.

Nous sommes fiers de collaborer avec certaines des plus grandes entreprises et institutions biopharmaceutiques du monde, en nous concentrant sur des cas d'utilisation tels que la découverte de médicaments, la sécurité et l'intelligence concurrentielle. En savoir plus sur notre parcours et comment nous accélérons l'acquisition des connaissances et améliorons la prise de décision sur notre blog.

Soutenu par des sociétés de capital-risque de premier plan telles que ICONIQ, Index Ventures, Pentech et Marathon, Causaly a pour mission de faire une différence significative dans l'industrie de la biomédecine.

Nous recherchons un Ingénieur de Données Senior expérimenté pour rejoindre et aider à développer notre équipe de Technologies Sémantiques et de Données établie. Cette équipe est cruciale pour concevoir et construire le backend de données évolutif et flexible dont nous avons besoin chez Causaly pour donner vie à notre vision.

Le rôle implique de travailler sur des pipelines de données incrémentiels pour des mises à jour par lots et ciblées, de maintenir des graphes de connaissances et des ontologies massifs, et d'alimenter notre entrepôt de données en constante croissance. Vous travaillerez en étroite collaboration avec les équipes d'IA appliquée et d'application pour créer une véritable valeur commerciale grâce aux données.

Vos responsabilités :

Collecter et comprendre les données en fonction des besoins de l'entreprise.
Importer de grands ensembles de données (millions d'enregistrements) à partir de formats tels que CSV, XML, SQL, JSON vers BigQuery.
Traiter et combiner les données sur BigQuery avec des sources de données externes.
Mettre en œuvre et maintenir des pipelines de données haute performance respectant les meilleures pratiques de l'industrie en matière d'évolutivité, de tolérance aux pannes et de fiabilité.
Développer des outils pour surveiller, auditer, exporter et extraire des insights à partir des pipelines de données.
Collaborer avec les parties prenantes techniques, produit et commerciales pour fournir des solutions de backend de données.
Gérer les processus de données liés à la livraison, à la curation et aux opérations d'apprentissage automatique.
Construire une fonction d'ingénierie des données solide, encadrer d'autres ingénieurs, façonner notre stratégie technologique et innover notre infrastructure de données.

Exigences pour réussir :

Exigences minimales :

Master en informatique, mathématiques ou dans un domaine technique connexe.
5+ ans d'expérience dans le traitement des données backend et les pipelines de données.
Maîtrise de Python et des bibliothèques associées (par exemple, pandas, Airflow).
Solides compétences en SQL et en bases de données.
Compréhension solide des pratiques modernes de développement logiciel (tests, contrôle de version, documentation, etc.).
Mentalité axée sur le produit et l'utilisateur.
Excellentes compétences en résolution de problèmes, prise en charge, organisation et attention aux détails.

Qualifications préférées :

Expérience avec les technologies NoSQL et big data (par exemple, Spark, Hadoop).
Expérience avec les bases de données de recherche en texte intégral (par exemple, ElasticSearch).
Expérience avec les graphes de connaissances et les bases de données de graphes (par exemple, Neo4J).
Expérience avec les MLOps / DataOps en production.