Ingeniero de Datos - Investigación

  • Full Time
Job expired!

Sobre Stability:

Stability AI es una compañía de inteligencia artificial de código abierto impulsada por la comunidad y la misión que se preocupa profundamente por las implicaciones y aplicaciones en el mundo real. Nuestros avances más significativos provienen de la diversidad de trabajo en múltiples equipos y disciplinas. No tememos ir en contra de las normas establecidas y explorar la creatividad. Nos motiva generar ideas innovadoras y convertirlas en soluciones tangibles. Nuestras vibrantes comunidades están compuestas por expertos, líderes y socios en todo el mundo que están desarrollando modelos de inteligencia artificial abierta de vanguardia para Imagen, Lenguaje, Audio, Video, 3D y Biología.

Sobre el rol:

Estamos buscando un talentoso ingeniero de datos con un enfoque en la escalabilidad eficiente de las cargas de trabajo distribuidas. Trabajarás junto a un creciente equipo multidisciplinario de talentosos científicos de investigación e ingenieros de aprendizaje automático para mejorar y escalar la eficiencia dentro de nuestros modelos. En este rol, contribuirás a proyectos revolucionarios como la formación de los modelos de lenguaje abiertos más grandes y serás responsable de garantizar que los datos se recojan, procesen y utilicen de la manera correcta.

Responsabilidades:

  • Limpiar, normalizar y preprocesar los datos de una manera escalable y paralelizable para prepararlos para su ingestión en nuestros pipelines de entrenamiento de modelos de aprendizaje automático, garantizando la calidad de los datos
  • Construir y mantener cargas de trabajo distribuidas altamente escalables
  • Construir pipelines de datos para ingerir y procesar datos (por ejemplo, imágenes y texto) para alimentar modelos de ML
  • Gestión de recursos AWS
  • Mantenerse al día con los métodos sobre cómo mejorar la calidad de los datos y/o curar datos para Imagen, Video, LLMs, etc.

Calificaciones:

  • Experiencia probada en cargas de trabajo distribuidas a gran escala
  • Experiencia con la carga de datos a gran escala para las ejecuciones de entrenamiento de aprendizaje automático
  • Experiencia con sistemas de almacenamiento en la nube y sistemas de archivos. AWS (S3) es altamente preferido, pero abierto a otras plataformas en la nube
  • Experiencia con Python + Pytorch
  • Experiencia con cargas de trabajo en paralelo y multiproceso en Python
  • Habilidades de comunicación excelentes para colaborar eficazmente con los usuarios, resolver problemas y proporcionar orientación.
  • Atención al detalle y la capacidad para documentar procesos y soluciones de manera efectiva.
  • Fuerte interés en la Inteligencia Artificial Generativa
  • Experiencia trabajando con proyectos de Aprendizaje Automático y, idealmente, algunos conocimientos sobre aprendizaje profundo / visión computacional
  • Experiencia con la pila de carga de datos (webdataset, torchdata, fsspec, AIstore) y la manipulación de dataframes paralelos utilizando Pyspark/Ray es un punto a favor

Igualdad de Oportunidades de Empleo:

Somos un empleador de igualdad de oportunidades y no discriminamos en base a raza, religión, origen nacional, género, orientación sexual, edad, estado de veterano, discapacidad u otros estados protegidos legalmente.