Senior Data Engineer

Data Engineer
London
06/17/2024
-

Job expired!

Sobre Nosotros

Fundada en 2018, Causaly está revolucionando la forma en que los humanos adquieren conocimiento y desarrollan insights en Biomedicina. Nuestra plataforma de IA generativa de vanguardia mejora los insights de investigación y la automatización del conocimiento, permitiendo a miles de científicos descubrir evidencia vital de millones de publicaciones académicas, ensayos clínicos, documentos regulatorios, patentes y otras fuentes de datos en solo minutos.

Nos enorgullece asociarnos con algunas de las compañías biofarmacéuticas e instituciones más grandes del mundo, enfocándonos en casos de uso como Descubrimiento de Medicamentos, Seguridad e Inteligencia Competitiva. Lee más sobre nuestra trayectoria y cómo aceleramos la adquisición de conocimientos y mejoramos la toma de decisiones en nuestro blog.

Respaldada por firmas de capital de riesgo de primer nivel como ICONIQ, Index Ventures, Pentech y Marathon, Causaly está en una misión para hacer un impacto significativo en la industria de la biomedicina.

Sobre el Rol: Ingeniero de Datos Senior

Estamos buscando un Ingeniero de Datos Senior con experiencia para unirse y ayudar a crecer nuestro equipo de Tecnologías Semánticas y de Datos establecido. Este equipo es crucial en el diseño y construcción del backend de datos escalable y flexible que necesitamos en Causaly para llevar nuestra visión a la realidad.

El rol implica trabajar en pipelines de datos incrementales tanto para actualizaciones por lotes como dirigidas, mantener enormes gráficos de conocimiento y ontologías, y alimentar nuestro almacén de datos en continuo crecimiento. Colaborarás estrechamente con los equipos de IA Aplicada y Aplicación para crear verdadero valor comercial a través de los datos.

Tus Responsabilidades:

Reunir y comprender datos basada en los requisitos comerciales.
Importar grandes conjuntos de datos (millones de registros) de formatos como CSV, XML, SQL, JSON a BigQuery.
Procesar y combinar datos en BigQuery con fuentes de datos externas.
Implementar y mantener pipelines de datos de alto rendimiento, siguiendo las mejores prácticas de la industria para escalabilidad, tolerancia a fallos y fiabilidad.
Desarrollar herramientas para monitorear, auditar, exportar y extraer insights de los pipelines de datos.
Involucrarse con partes interesadas técnicas, de producto y comerciales para entregar soluciones de backend de datos.
Gestionar procesos de datos relacionados con la entrega, curación y operaciones de aprendizaje automático.
Construir una función sólida de ingeniería de datos, mentorizar a otros ingenieros, dar forma a nuestra estrategia tecnológica e innovar nuestra infraestructura de datos.

Requisitos para el Éxito:

Requisitos Mínimos:

Título de Máster en Ciencias de la Computación, Matemáticas, o un campo técnico relacionado.
Más de 5 años de experiencia en procesamiento de datos de backend y pipelines de datos.
Dominio de Python y bibliotecas relacionadas (e.g., pandas, Airflow).
Sólidas habilidades en SQL y bases de datos.
Comprensión sólida de las prácticas modernas de desarrollo de software (testing, control de versiones, documentación, etc.).
Mentalidad centrada en el producto y el usuario.
Excelentes habilidades de resolución de problemas, capacidad de gestión, organizativas y alta atención a los detalles.

Calificaciones Preferidas:

Experiencia con tecnologías NoSQL y big data (e.g., Spark, Hadoop).
Experiencia con bases de datos de búsqueda de texto completo (e.g., ElasticSearch).
Experiencia con gráficos de conocimiento y bases de datos de gráficos (e.g., Neo4J).
Experiencia con MLOps / DataOps en producción.
Familiaridad con Terraform, Kubernetes y/o Docker Containers.

Nuestros Beneficios: