R&D Data Engineer in AI and Computer Vision

Computer Vision
Madrid
07/01/2024
-

Job expired!

Eviden, parte del Grupo Atos, es un líder global en transformación digital confiable, sostenible y basada en datos, con unos ingresos anuales de aproximadamente €5 mil millones. Como un negocio digital de próxima generación, ocupamos posiciones líderes a nivel mundial en digital, nube, datos, computación avanzada y seguridad. Nuestro profundo conocimiento abarca más de 47 países, uniendo tecnologías de alta gama únicas con 47,000 talentos de clase mundial, expandiendo las posibilidades de los datos y la tecnología para las generaciones venideras.

Estamos desarrollando la Plataforma de Visión por Computadora de Eviden, una solución de análisis de video en tiempo real de vanguardia aplicable en varios sectores. Utilizando tecnologías de IA y componentes de software de Big Data, diseñamos y mejoramos nuestro producto para gestionar operaciones de datos integrales.

Estamos buscando un Ingeniero de Datos con habilidades y motivación para unirse a nuestro equipo. Esta función implica la implementación de pipelines de datos de extremo a extremo y la operación de data lakes para apoyar nuestros proyectos innovadores.

Construir y mantener pipelines de datos robustos para ingerir, transformar y cargar datos de diversas fuentes, asegurando la calidad, consistencia y confiabilidad de los datos.
Implementar lógica de transformación de datos para convertir datos en bruto en formatos estructurados adecuados para análisis e informes, aprovechando procesos ETL/ELT.
Gestionar la infraestructura de la plataforma de datos, optimizando la utilización del almacenamiento y asegurando la accesibilidad de los datos.
Implementar y hacer cumplir medidas de seguridad de datos, controles de acceso y estándares de cumplimiento para mantener la integridad y privacidad de los datos.
Desarrollar mecanismos eficientes de búsqueda y recuperación de datos, considerando la relevancia, el rendimiento de las consultas y la experiencia del usuario.
Monitorear y optimizar el rendimiento de los pipelines y sistemas de almacenamiento de datos para un procesamiento y recuperación de datos eficientes.
Mantener documentación completa de los diseños, procesos y configuraciones de los pipelines de datos.
Automatizar la construcción, prueba y despliegue de los componentes del data lake siguiendo prácticas de DevOps.
Implementar pruebas unitarias y de integración, propagando el conocimiento en todo el equipo.
Gestionar de manera segura los activos de IA como conjuntos de datos y modelos.
Integrar componentes de extracción de metadatos aprovechando modelos de IA y herramientas de terceros.
Colaborar eficazmente con equipos multifuncionales, incluidos científicos de datos, ingenieros de datos, desarrolladores frontend y backend, y propietarios de productos.

Licenciatura, Maestría o Doctorado en Ciencias de la Computación, Ingeniería Eléctrica o un campo relacionado.

Experiencia comprobada (3+ años) en diseño, construcción y mantenimiento de pipelines de datos a gran escala e infraestructura de data lake.
Alta competencia en lenguajes de programación como Python.
Experiencia práctica en desarrollo de API REST.
Experiencia con Elasticsearch, incluyendo la ingestión de datos, indexación y capacidades de búsqueda.
Conocimiento de modelado de datos, diseño de esquemas y procesos ETL/ELT.
Experiencia con Docker y Kubernetes para el despliegue de aplicaciones de software.
Competencia en el uso de Git y GitHub Actions.
Práctica de la metodología ágil.
Competencia en entornos Linux (bash o shell).
Nivel de inglés B2.

Experiencia en herramientas de MLOps como MLFlow o Kubeflow.
Experiencia con Google Cloud Platform (GCP).
Conocimiento sobre programación en CPU vs GPU.
Conocimiento general sobre clústeres.

Autonomía: Capacidad de buscar y leer documentación de manera independiente.
Colaboración: Proporcionar comentarios constructivos y adoptar las mejores prácticas y guías.
Fluidez en inglés.
Buenas habilidades de escritura y presentación.