Senior Data Engineer

Job expired!

Sobre Nosotros

Fundada en 2018, Causaly está revolucionando la forma en que los humanos adquieren conocimiento y desarrollan insights en Biomedicina. Nuestra plataforma de IA generativa de vanguardia mejora los insights de investigación y la automatización del conocimiento, permitiendo a miles de científicos descubrir evidencia vital de millones de publicaciones académicas, ensayos clínicos, documentos regulatorios, patentes y otras fuentes de datos en solo minutos.

Nos enorgullece asociarnos con algunas de las compañías biofarmacéuticas e instituciones más grandes del mundo, enfocándonos en casos de uso como Descubrimiento de Medicamentos, Seguridad e Inteligencia Competitiva. Lee más sobre nuestra trayectoria y cómo aceleramos la adquisición de conocimientos y mejoramos la toma de decisiones en nuestro blog.

Respaldada por firmas de capital de riesgo de primer nivel como ICONIQ, Index Ventures, Pentech y Marathon, Causaly está en una misión para hacer un impacto significativo en la industria de la biomedicina.

Sobre el Rol: Ingeniero de Datos Senior

Estamos buscando un Ingeniero de Datos Senior con experiencia para unirse y ayudar a crecer nuestro equipo de Tecnologías Semánticas y de Datos establecido. Este equipo es crucial en el diseño y construcción del backend de datos escalable y flexible que necesitamos en Causaly para llevar nuestra visión a la realidad.

El rol implica trabajar en pipelines de datos incrementales tanto para actualizaciones por lotes como dirigidas, mantener enormes gráficos de conocimiento y ontologías, y alimentar nuestro almacén de datos en continuo crecimiento. Colaborarás estrechamente con los equipos de IA Aplicada y Aplicación para crear verdadero valor comercial a través de los datos.

Tus Responsabilidades:

  • Reunir y comprender datos basada en los requisitos comerciales.
  • Importar grandes conjuntos de datos (millones de registros) de formatos como CSV, XML, SQL, JSON a BigQuery.
  • Procesar y combinar datos en BigQuery con fuentes de datos externas.
  • Implementar y mantener pipelines de datos de alto rendimiento, siguiendo las mejores prácticas de la industria para escalabilidad, tolerancia a fallos y fiabilidad.
  • Desarrollar herramientas para monitorear, auditar, exportar y extraer insights de los pipelines de datos.
  • Involucrarse con partes interesadas técnicas, de producto y comerciales para entregar soluciones de backend de datos.
  • Gestionar procesos de datos relacionados con la entrega, curación y operaciones de aprendizaje automático.
  • Construir una función sólida de ingeniería de datos, mentorizar a otros ingenieros, dar forma a nuestra estrategia tecnológica e innovar nuestra infraestructura de datos.

Requisitos para el Éxito:

Requisitos Mínimos:

  • Título de Máster en Ciencias de la Computación, Matemáticas, o un campo técnico relacionado.
  • Más de 5 años de experiencia en procesamiento de datos de backend y pipelines de datos.
  • Dominio de Python y bibliotecas relacionadas (e.g., pandas, Airflow).
  • Sólidas habilidades en SQL y bases de datos.
  • Comprensión sólida de las prácticas modernas de desarrollo de software (testing, control de versiones, documentación, etc.).
  • Mentalidad centrada en el producto y el usuario.
  • Excelentes habilidades de resolución de problemas, capacidad de gestión, organizativas y alta atención a los detalles.

Calificaciones Preferidas:

  • Experiencia con tecnologías NoSQL y big data (e.g., Spark, Hadoop).
  • Experiencia con bases de datos de búsqueda de texto completo (e.g., ElasticSearch).
  • Experiencia con gráficos de conocimiento y bases de datos de gráficos (e.g., Neo4J).
  • Experiencia con MLOps / DataOps en producción.
  • Familiaridad con Terraform, Kubernetes y/o Docker Containers.

Nuestros Beneficios:

  • Paquete de compensación competitivo.
  • Seguro médico privado.
  • Seguro de vida (4 veces el salario).