Ingeniero de Datos Masivos
Kaizen Analytix LLC, una empresa de productos y servicios de analítica que proporciona a los clientes una velocidad inigualable hacia el valor a través de soluciones analíticas e ideas de negocio accionables, está buscando candidatos capacitados para el puesto de Ingeniero de Datos Masivos que sean profesionales altamente cualificados y con experiencia en el diseño, desarrollo y mantenimiento de pipelines de datos y almacenes de datos utilizando el ecosistema Hadoop, que incluye HDFS, Spark, Hive, HBase, Sqoop, Pig, Oozie o sus equivalentes ofertas en la nube como AWS EMR, GCP Dataproc, Azure HDInsigts. El candidato ideal tendrá un sólido entendimiento de los principios y las mejores prácticas de ingeniería de datos, así como experiencia con conjuntos de datos masivos.
Responsabilidades:
Análisis y Diseño
- Conduce sesiones de recopilación de datos con usuarios.
- Consulta con Gerentes Técnicos y Propietarios de Negocios para identificar y analizar necesidades y problemas tecnológicos.
- Realiza diagramas de flujo de datos y/o modelado de procesos (arquitectura de código).
- Diseña, desarrolla y mantiene pipelines de datos y almacenes de datos en las plataformas en la nube deseadas (p.ej., AWS, GCP, Azure).
- Trabaja con las partes interesadas para recoger requisitos y definir modelos de datos.
- Desarrolla y despliega pipelines de datos en la Plataforma en la Nube utilizando herramientas y servicios de datos masivos.
- Implementa verificaciones de calidad de datos y monitoreo.
- Resuelve problemas de datos y problemas de rendimiento.
- Trabaja con otros ingenieros para desarrollar y mantener la infraestructura de datos de la empresa.
- Se mantiene al día sobre las últimas tecnologías y tendencias de ingeniería de datos.
Alineación Estratégica
- Colabora con otros miembros del equipo técnico para mejorar continuamente las estrategias de implementación, los estándares de desarrollo y otros procesos y documentación del departamento.
- Brinda asistencia técnica y tutoría a los Ingenieros de Datos de nivel inferior.
- Comunica planes, estado y problemas a la gerencia regularmente.
- Se adhiere a los estándares, políticas, procedimientos y mejores prácticas de la industria del departamento.
Requisitos del trabajo:
- Grado de licenciatura/master en informática, sistemas de información o un campo relacionado
- 4+ años de experiencia en ingeniería de datos y herramientas de datos masivos
- Experiencia en proyectos de migración que involucren almacenamiento de datos, migrando bases de datos de una tecnología a otra diferente.
- Fuerte programación en Scala/Java para desarrollar Scripts ETL .
- Profundo conocimiento de los principios y mejores prácticas de ingeniería de datos.
- Excelente implementación de conocimientos de Spark usando Scala/Java.
- Experiencia en Map Reduce, formatos de archivos de datos masivos, técnicas de partición, mantenimiento de réplicas y compresión.
- Experiencia
con cualquier plataforma en la nube y sus ofertas de herramientas de Hadoop como Google Cloud Platform - Dataproc, Cloud Dataflow, y Cloud Data Fusion, AWS Elastic Map-Reduce.
- Experiencia con el modelado de datos y los almacenes de datos
- Experiencia con chequeos de calidad de datos y monitoreo
- Debe estar al tanto de los pipelines de CI/CD y estar familiarizado con herramientas como Jenkins, Cloud Build y TeamCity para crear los pipelines requeridos para CI/CD.
- Tomar la iniciativa y proponer soluciones y soluciones temporales; estar dispuesto a trabajar bajo estrictos plazos.
- Identificar y resolver problemas clave de implementación de clientes.
- Capacidad para colaborar con arquitectos de dominio para desarrollar la arquitectura de solución de extremo a extremo, incluyendo los dominios de aplicación, infraestructura, datos, integración y seguridad.
-
Bueno para tener:
- Sería bueno contar con cualquier Certificación Profesional de Ingeniero de Datos
- Sería bueno tener nociones de Python, HiveQL/SQL.
- Experiencia necesaria con análisis de datos en redes sociales involucrando datos de gran volumen y alta frecuencia.
- Experiencia en proyectos de desarrollo de aplicaciones centrados en actividades de ingeniería de datos utilizando cualquiera de los lenguajes de programación (Python, SQL, Java).
- Experiencia previa con herramientas y conceptos de datos masivos como Hadoop, MapReduce, Spark, Hive, HBase, Apache Airflow (orquestación)