Ingeniero de Datos - Investigación

Data Engineer
London
$123 K - $190 K

Full Time

Job expired!

Sobre Stability:

Stability AI es una compañía de inteligencia artificial de código abierto impulsada por la comunidad y la misión que se preocupa profundamente por las implicaciones y aplicaciones en el mundo real. Nuestros avances más significativos provienen de la diversidad de trabajo en múltiples equipos y disciplinas. No tememos ir en contra de las normas establecidas y explorar la creatividad. Nos motiva generar ideas innovadoras y convertirlas en soluciones tangibles. Nuestras vibrantes comunidades están compuestas por expertos, líderes y socios en todo el mundo que están desarrollando modelos de inteligencia artificial abierta de vanguardia para Imagen, Lenguaje, Audio, Video, 3D y Biología.

Sobre el rol:

Estamos buscando un talentoso ingeniero de datos con un enfoque en la escalabilidad eficiente de las cargas de trabajo distribuidas. Trabajarás junto a un creciente equipo multidisciplinario de talentosos científicos de investigación e ingenieros de aprendizaje automático para mejorar y escalar la eficiencia dentro de nuestros modelos. En este rol, contribuirás a proyectos revolucionarios como la formación de los modelos de lenguaje abiertos más grandes y serás responsable de garantizar que los datos se recojan, procesen y utilicen de la manera correcta.

Responsabilidades:

Limpiar, normalizar y preprocesar los datos de una manera escalable y paralelizable para prepararlos para su ingestión en nuestros pipelines de entrenamiento de modelos de aprendizaje automático, garantizando la calidad de los datos
Construir y mantener cargas de trabajo distribuidas altamente escalables
Construir pipelines de datos para ingerir y procesar datos (por ejemplo, imágenes y texto) para alimentar modelos de ML
Gestión de recursos AWS
Mantenerse al día con los métodos sobre cómo mejorar la calidad de los datos y/o curar datos para Imagen, Video, LLMs, etc.

Calificaciones:

Experiencia probada en cargas de trabajo distribuidas a gran escala
Experiencia con la carga de datos a gran escala para las ejecuciones de entrenamiento de aprendizaje automático
Experiencia con sistemas de almacenamiento en la nube y sistemas de archivos. AWS (S3) es altamente preferido, pero abierto a otras plataformas en la nube
Experiencia con Python + Pytorch
Experiencia con cargas de trabajo en paralelo y multiproceso en Python
Habilidades de comunicación excelentes para colaborar eficazmente con los usuarios, resolver problemas y proporcionar orientación.
Atención al detalle y la capacidad para documentar procesos y soluciones de manera efectiva.
Fuerte interés en la Inteligencia Artificial Generativa
Experiencia trabajando con proyectos de Aprendizaje Automático y, idealmente, algunos conocimientos sobre aprendizaje profundo / visión computacional
Experiencia con la pila de carga de datos (webdataset, torchdata, fsspec, AIstore) y la manipulación de dataframes paralelos utilizando Pyspark/Ray es un punto a favor

Igualdad de Oportunidades de Empleo:

Somos un empleador de igualdad de oportunidades y no discriminamos en base a raza, religión, origen nacional, género, orientación sexual, edad, estado de veterano, discapacidad u otros estados protegidos legalmente.