Machine Learning Data Engineer

Machine learning
Seattle
08/28/2024
-

Job expired!

Diseño y Construcción de Tuberías de Datos: Crear tuberías de datos eficientes, fiables, transmisibles y escalables utilizando herramientas y técnicas estándar de la industria como TorchData, WebDataset, Apache Parquet, Python y SQL.

Ingestión de Datos: Desarrollar estrategias para la ingestión de datos de proveedores, garantizando la calidad y consistencia de los datos.

Pre-procesamiento de Datos: Implementar pre-procesamiento paralelo para limpiar, transformar, eliminar duplicados, combinar y normalizar datos.

Curación y Enriquecimiento de Datos: Curar, aumentar y enriquecer conjuntos de datos para mejorar la calidad de los datos y proporcionar valiosos conocimientos a las partes interesadas.

Generación de Datos Sintéticos: Colaborar con equipos de datos sintéticos para generar datos e incorporarlos en las tuberías existentes.

Colaboración con Equipos de Clientes: Trabajar estrechamente con científicos, ingenieros y equipos de producto de clientes para entender los requisitos de datos y colaborar en la entrega de datos.

Monitoreo, Mantenimiento y Actualización: Monitorear las tuberías de datos en busca de rendimiento, errores y cuellos de botella, implementando mantenimiento y actualizaciones regulares. Mantenerse actualizado con las últimas tendencias y mejores prácticas.

Documentación Técnica: Documentar las tuberías de datos, configuraciones y procedimientos para facilitar el mantenimiento y el intercambio de conocimientos.

Licenciatura en Ciencias de la Computación, Tecnología de la Información o un campo relacionado.

Al menos 3 años de experiencia como Ingeniero de Software o Ingeniero de Datos.

Fuertes habilidades en ingeniería de software, con dominio de Python.

Experiencia con herramientas y formatos de procesamiento de datos como Apache Parquet, WebDataset, TorchData, Pandas, Shell Scripting, Protobuf, TFRecord.

Conocimiento de arquitecturas de almacenes de datos y sistemas basados en la nube (por ejemplo, AWS S3).

Fuertes habilidades de resolución de problemas y analíticas.

Excelentes habilidades de comunicación y colaboración.

Maestría en Ciencia de Datos o un campo relacionado.

Experiencia con técnicas de curación y enriquecimiento de datos, particularmente para datos a gran escala de texto, imagen y video.

Familiaridad con procesamiento de lenguaje natural (NLP), conceptos de aprendizaje automático y marcos (PyTorch).

Como empleador que brinda igualdad de oportunidades, ICONMA ofrece un entorno laboral que apoya y alienta las capacidades de todas las personas sin distinción de raza, color, religión, género, orientación sexual, identidad o expresión de género, etnia, origen nacional, edad, estado de discapacidad, afiliación política, genética, estado civil, estado de veterano protegido o cualquier otra característica protegida por leyes federales, estatales o locales.