Ingeniero de Datos (Databricks)
- Data Engineer
- Other places
- $111 K - $183 K
- Full Time
Descripción del trabajo:
Como Ingeniero de Datos de Azure, jugarás un papel crucial en el diseño, desarrollo y mantenimiento de soluciones de datos en la plataforma Azure. Tus responsabilidades principales girarán en torno a la construcción y optimización de pipelines de datos, garantizando la calidad de los datos e implementando la lógica de procesamiento y transformación de datos. Para sobresalir en este puesto, tu experiencia en Azure Databricks, Python, SQL, Azure Data Factory (ADF) y PySpark/Scala será esencial. Tus aportaciones permitirán la toma de decisiones basadas en datos y perspectivas para nuestra organización.
Responsabilidades clave:
1. Diseño y desarrollo de pipelines de datos:
- Diseñar e implementar pipelines de datos escalables y eficientes utilizando Azure Databricks, PySpark y Scala.
- Gestionar la ingesta de datos, la transformación de datos y los procesos de carga de datos.
2. Modelado de datos y diseño de bases de datos:
- Crear e implementar modelos de datos para soportar el almacenamiento eficiente de datos, la recuperación y el análisis.
- Colaborar con bases de datos relacionales, lagos de datos y otras soluciones de almacenamiento en la plataforma Azure.
3. Integración y orquestación de datos:
- Aprovechar Azure Data Factory (ADF) para orquestar flujos de trabajo de integración de datos.
- Gestionar el movimiento de datos a través de varias fuentes y destinos de datos, incluyendo la programación y monitoreo de pipelines de datos.
4. Calidad y gobernanza de los datos:
- Implementar controles de calidad de datos, reglas de validación y procesos de gobernanza de datos.
- Garantizar la precisión de los datos, la coherencia y el cumplimiento de las regulaciones y normas relevantes.
5. Optimización del rendimiento:
- Optimizar los pipelines de datos y las consultas para mejorar el rendimiento del sistema y reducir el tiempo de procesamiento.
- Afinar consultas SQL, optimizar la lógica de transformación de datos y emplear técnicas de almacenamiento en caché según sea necesario.
6. Monitoreo y resolución de problemas:
- Monitorear continuamente los pipelines de datos e identificar los cuellos de botella del rendimiento.
- Solucionar proactivamente problemas relacionados con la ingesta de datos, el procesamiento y la transformación.
- Colaborar con equipos multifuncionales para resolver problemas relacionados con los datos.
7. Documentación y colaboración:
- Documentar pipelines de datos, flujos de datos y procesos de transformación de datos.
- Colaborar estrechamente con científicos de datos, analistas y otros interesados para entender sus requerimientos de datos y proporcionar soporte de ingeniería de datos.
Requisitos
5+ años de experiencia en un rol de Ingeniero de Datos.
- Dominio de la programación en Python o Scala.
- Fuertes habilidades para la resolución de problemas en un entorno de big data.
- Experiencia en la construcción de pipelines de datos, arquitecturas y conjuntos de datos de 'big data' a partir de diversas aplicaciones empresariales.
- Conocimiento de la cola de mensajes, procesamiento de stream y almacenamiento de datos 'big data' escalables.
- Espíritu emprendedor, dedicado a entregar resultados de alta calidad.
- Licenciatura en Ciencias de la Computación o un campo relacionado, como Matemáticas Aplicadas.
- Experiencia en un rol técnico de atención al cliente (preferiblemente ingeniería de soluciones) o disposición para asumir un rol de este tipo.
- Fuerte experiencia en Azure Databricks, Python, SQL, ADF, PySpark y Scala.
- Dominio en el diseño y desarrollo de pipelines de datos y procesos ETL.
- Comprender los conceptos de modelado de datos y los principios de diseño de bases de datos.
- Conocimiento de la integración y orquestación de datos utilizando Azure Data Factory.