Machine Learning Data Engineer
- Machine learning
- Seattle
- 08/28/2024
- -
Diseño y Construcción de Tuberías de Datos: Crear tuberías de datos eficientes, fiables, transmisibles y escalables utilizando herramientas y técnicas estándar de la industria como TorchData, WebDataset, Apache Parquet, Python y SQL.
Ingestión de Datos: Desarrollar estrategias para la ingestión de datos de proveedores, garantizando la calidad y consistencia de los datos.
Pre-procesamiento de Datos: Implementar pre-procesamiento paralelo para limpiar, transformar, eliminar duplicados, combinar y normalizar datos.
Curación y Enriquecimiento de Datos: Curar, aumentar y enriquecer conjuntos de datos para mejorar la calidad de los datos y proporcionar valiosos conocimientos a las partes interesadas.
Generación de Datos Sintéticos: Colaborar con equipos de datos sintéticos para generar datos e incorporarlos en las tuberías existentes.
Colaboración con Equipos de Clientes: Trabajar estrechamente con científicos, ingenieros y equipos de producto de clientes para entender los requisitos de datos y colaborar en la entrega de datos.
Monitoreo, Mantenimiento y Actualización: Monitorear las tuberías de datos en busca de rendimiento, errores y cuellos de botella, implementando mantenimiento y actualizaciones regulares. Mantenerse actualizado con las últimas tendencias y mejores prácticas.
Documentación Técnica: Documentar las tuberías de datos, configuraciones y procedimientos para facilitar el mantenimiento y el intercambio de conocimientos.
Licenciatura en Ciencias de la Computación, Tecnología de la Información o un campo relacionado.
Al menos 3 años de experiencia como Ingeniero de Software o Ingeniero de Datos.
Fuertes habilidades en ingeniería de software, con dominio de Python.
Experiencia con herramientas y formatos de procesamiento de datos como Apache Parquet, WebDataset, TorchData, Pandas, Shell Scripting, Protobuf, TFRecord.
Conocimiento de arquitecturas de almacenes de datos y sistemas basados en la nube (por ejemplo, AWS S3).
Fuertes habilidades de resolución de problemas y analíticas.
Excelentes habilidades de comunicación y colaboración.
Maestría en Ciencia de Datos o un campo relacionado.
Experiencia con técnicas de curación y enriquecimiento de datos, particularmente para datos a gran escala de texto, imagen y video.
Familiaridad con procesamiento de lenguaje natural (NLP), conceptos de aprendizaje automático y marcos (PyTorch).
Como empleador que brinda igualdad de oportunidades, ICONMA ofrece un entorno laboral que apoya y alienta las capacidades de todas las personas sin distinción de raza, color, religión, género, orientación sexual, identidad o expresión de género, etnia, origen nacional, edad, estado de discapacidad, afiliación política, genética, estado civil, estado de veterano protegido o cualquier otra característica protegida por leyes federales, estatales o locales.