Ingénieur de Données - Recherche

  • Full Time
Job expired!

À propos de Stability:

Stability AI est une entreprise de communauté et de mission, d'intelligence artificielle open-source qui se soucie profondément des implications et des applications réelles. Nos avancées les plus considérables proviennent de notre diversité à travailler à travers plusieurs équipes et disciplines. Nous n'avons pas peur de défier les normes établies et d'explorer la créativité. Nous sommes motivés pour générer des idées révolutionnaires et les convertir en solutions tangibles. Nos communautés dynamiques se composent d'experts, de leaders et de partenaires à travers le globe qui développent des modèles d'IA ouverts de pointe pour les images, le langage, l'audio, la vidéo, la 3D et la biologie.

À propos du rôle:

Nous recherchons un ingénieur de données talentueux avec un accent sur la mise à l'échelle des charges de travail distribuées efficaces. Vous travaillerez aux côtés d'une équipe multidisciplinaire croissante de scientifiques de la recherche talentueux et d'ingénieurs en apprentissage automatique pour améliorer et augmenter l'efficacité au sein de nos modèles. Dans ce rôle, vous contribuerez à des projets révolutionnaires tels que la formation des plus grands modèles de langage ouverts et vous serez responsable de veiller à ce que les données soient collectées, traitées et utilisées de la bonne manière.

Responsabilités:

  • Nettoyer, normaliser et prétraiter les données de manière évolutive et parallélisable pour les préparer à être ingérées dans nos pipelines de formation de modèles d'apprentissage automatique tout en assurant la qualité des données
  • Construire et maintenir des charges de travail distribuées hautement évolutives
  • Construire des pipelines de données pour ingérer et traiter les données (par exemple, images et texte) pour les intégrer dans les modèles ML
  • Gestion des ressources AWS
  • Se tenir à jour avec les méthodes concernant comment améliorer la qualité des données et/ou préparer les données pour l'Image, la Vidéo, les LLM, etc.

Qualifications:

  • Expérience avérée avec des charges de travail distribuées à grande échelle
  • Expérience avec le chargement de données à grande échelle pour des exécutions de formation à l'apprentissage automatique
  • Expérience avec le stockage dans le cloud et les systèmes de fichiers. AWS (S3) est fortement préféré, mais ouvert à d'autres plateformes cloud
  • Expérience avec Python + Pytorch
  • Expérience avec les charges de travail python en multiprocessing et multithreading
  • Excellentes compétences en communication pour collaborer efficacement avec les utilisateurs, résoudre les problèmes et fournir des conseils.
  • Attention aux détails et capacité à documenter efficacement les processus et les solutions.
  • Un grand intérêt pour l'IA générative
  • Expérience de travail avec des projets d'apprentissage automatique et idéalement une certaine connaissance de l'apprentissage profond / de la vision par ordinateur
  • Expérience avec la pile de chargement de données (webdataset, torchdata, fsspec, AIstore) et la manipulation parallèle de dataframe en utilisant Pyspark/Ray est un avantage

Égalité des chances en matière d'emploi:

Nous sommes un employeur qui offre des chances égales à tous et nous ne discriminons pas sur la base de la race, de la religion, de l'origine nationale, du sexe, de l'orientation sexuelle, de l'âge, du statut de vétéran, du handicap ou d'autres statuts légalement protégés.