Ingeniero de Datos (Databricks)

  • Full Time
Job expired!

Descripción del trabajo:

Como Ingeniero de Datos de Azure, jugarás un papel crucial en el diseño, desarrollo y mantenimiento de soluciones de datos en la plataforma Azure. Tus responsabilidades principales girarán en torno a la construcción y optimización de pipelines de datos, garantizando la calidad de los datos e implementando la lógica de procesamiento y transformación de datos. Para sobresalir en este puesto, tu experiencia en Azure Databricks, Python, SQL, Azure Data Factory (ADF) y PySpark/Scala será esencial. Tus aportaciones permitirán la toma de decisiones basadas en datos y perspectivas para nuestra organización.

Responsabilidades clave:

1. Diseño y desarrollo de pipelines de datos:

- Diseñar e implementar pipelines de datos escalables y eficientes utilizando Azure Databricks, PySpark y Scala.

- Gestionar la ingesta de datos, la transformación de datos y los procesos de carga de datos.

2. Modelado de datos y diseño de bases de datos:

- Crear e implementar modelos de datos para soportar el almacenamiento eficiente de datos, la recuperación y el análisis.

- Colaborar con bases de datos relacionales, lagos de datos y otras soluciones de almacenamiento en la plataforma Azure.

3. Integración y orquestación de datos:

- Aprovechar Azure Data Factory (ADF) para orquestar flujos de trabajo de integración de datos.

- Gestionar el movimiento de datos a través de varias fuentes y destinos de datos, incluyendo la programación y monitoreo de pipelines de datos.

4. Calidad y gobernanza de los datos:

- Implementar controles de calidad de datos, reglas de validación y procesos de gobernanza de datos.

- Garantizar la precisión de los datos, la coherencia y el cumplimiento de las regulaciones y normas relevantes.

5. Optimización del rendimiento:

- Optimizar los pipelines de datos y las consultas para mejorar el rendimiento del sistema y reducir el tiempo de procesamiento.

- Afinar consultas SQL, optimizar la lógica de transformación de datos y emplear técnicas de almacenamiento en caché según sea necesario.

6. Monitoreo y resolución de problemas:

- Monitorear continuamente los pipelines de datos e identificar los cuellos de botella del rendimiento.

- Solucionar proactivamente problemas relacionados con la ingesta de datos, el procesamiento y la transformación.

- Colaborar con equipos multifuncionales para resolver problemas relacionados con los datos.

7. Documentación y colaboración:

- Documentar pipelines de datos, flujos de datos y procesos de transformación de datos.

- Colaborar estrechamente con científicos de datos, analistas y otros interesados para entender sus requerimientos de datos y proporcionar soporte de ingeniería de datos.

Requisitos

5+ años de experiencia en un rol de Ingeniero de Datos.

- Dominio de la programación en Python o Scala.

- Fuertes habilidades para la resolución de problemas en un entorno de big data.

- Experiencia en la construcción de pipelines de datos, arquitecturas y conjuntos de datos de 'big data' a partir de diversas aplicaciones empresariales.

- Conocimiento de la cola de mensajes, procesamiento de stream y almacenamiento de datos 'big data' escalables.

- Espíritu emprendedor, dedicado a entregar resultados de alta calidad.

- Licenciatura en Ciencias de la Computación o un campo relacionado, como Matemáticas Aplicadas.

- Experiencia en un rol técnico de atención al cliente (preferiblemente ingeniería de soluciones) o disposición para asumir un rol de este tipo.

- Fuerte experiencia en Azure Databricks, Python, SQL, ADF, PySpark y Scala.

- Dominio en el diseño y desarrollo de pipelines de datos y procesos ETL.

- Comprender los conceptos de modelado de datos y los principios de diseño de bases de datos.

- Conocimiento de la integración y orquestación de datos utilizando Azure Data Factory.