Инженер по данным - Исследования

  • Full Time
Job expired!

О стабильности:

AI Stability - это сообщество и компания, работающая в области открытого искусственного интеллекта, основанная на выполнении своей миссии. Мы глубоко заботимся о реальных последствиях и применениях. Наши наиболее значительные достижения происходят благодаря нашему разнообразию в работе в разных группах и дисциплинах. Мы не боимся противостоять устоявшимся нормам и содействовать инновациям. Нас ведет стремление создавать сверхновые идеи и превращать их в конкретные решения. Наши динамичные сообщества состоят из специалистов, лидеров и партнеров по всему миру, которые разрабатывают продвинутые открытые модели AI для обработки изображений, языка, аудио, видео, 3D и биологии.

О роли:

Мы ищем талантливого инженера по данным, который специализируется на масштабировании эффективных распределенных нагрузок. Вы будете работать совместно с процветающей многообразной командой опытных научных исследователей и инженеров машинного обучения для увеличения и масштабирования эффективности в наших моделях. В этой роли вы будете участвовать в революционных проектах, таких как обучение крупнейших открытых языковых моделей, и будете ответствены за обеспечение надлежащего сбора, обработки и использования данных.

Обязанности:

  • Очищать, стандартизировать и предварительно обрабатывать данные для их загрузки в наши модели обучения машинного обучения, обеспечивая высокое качество данных.
  • Создавать и поддерживать масштабируемые распределенные нагрузки.
  • Создавать конвейеры данных для загрузки и обработки данных (например, изображений и текста) для интеграции в модели ML.
  • Управление ресурсами AWS.
  • Поддерживать в актуальном состоянии методы по улучшению качества данных и/или сбора данных для изображений, видео, LLM и т.д.

Квалификация:

  • Подтвержденный опыт работы с распределенными нагрузками большого масштаба.
  • Опыт работы с загрузкой больших объемов данных для обучения машинного обучения.
  • Опыт работы с облачным хранением и файловыми системами. Настоятельно рекомендуется AWS (S3), но мы готовы рассмотреть и другие облачные платформы.
  • Опыт работы с Python + Pytorch.
  • Опыт работы с многопроцессорностью и многопоточностью в Python.
  • Отличные навыки общения для эффективного взаимодействия с пользователями, решения проблем и предоставления руководства.
  • Тщательное внимание к деталям и умение эффективно документировать процессы и решения.
  • Сильный интерес к генеративному AI.
  • Опыт работы с проектами машинного обучения и, идеально, некоторые знания в глубоком обучении / компьютерном зрении.
  • Опыт работы со стеком загрузки данных (webdataset, torchdata, fsspec, AIstore) и параллельной обработкой данных с использованием Pyspark/Ray будет плюсом.

Равенство возможностей при трудоустройстве:

Мы являемся работодателем, предоставляющим равные возможности, и мы не дискриминируем на основании расы, религии, национальной принадлежности, пола, сексуальной ориентации, возраста, статуса ветерана, инвалидности или других юридически защищенных статусов.