HPC Engineer, Machine Learning Infrastructure - EMEA Remote

Job expired!

Добро пожаловать в Hugging Face! Наша миссия состоит в том, чтобы развивать машинное обучение и сделать его более доступным для всех. Наш путь предполагает вклад в развитие технологий ради лучшего будущего.

Мы создали самую быстрорастущую открытую библиотеку предварительно обученных моделей в мире. С более чем 1 миллионом моделей и 320K+ звездами на GitHub, технологии Hugging Face используются в производстве более чем 15,000 компаниями, включая ведущие AI организации, такие как Google, Elastic, Salesforce, Grammarly и NASA.

Мы ищем опытного инженера HPC для разработки и масштабирования нашего распределенного крупномасштабного кластера. Идеальный кандидат будет иметь солидный опыт в создании и управлении крупными вычислительными кластерами для AI рабочих процессов и руководить командами по созданию лучших практик для надежности и масштабируемости.

  • Проектирование, разработка, развертывание и поддержка надежной и масштабируемой инфраструктуры для эффективного выполнения рабочих нагрузок тренировок.
  • Управление большими вычислительными кластерами для обучения и разработки AI.
  • Создание инструментов и инфраструктуры для абстрагирования вычислительных и хранилищ данных в ML рабочих процессах.
  • Измерение и оптимизация производительности системы.
  • Мониторинг и устранение проблем с инфраструктурой для обеспечения высокой доступности и производительности AI рабочих нагрузок.
  • Оставаться в курсе новейших технологий инфраструктуры AI и рекомендовать улучшения.
  • Взаимодействие с командами разработки AI для обеспечения поддержки системных требований инфраструктуры.
  • Предоставление основной оперативной поддержки и инжиниринга для нескольких команд.
  • 7+ лет опыта в роли DevOps или инженера инфраструктуры, с фокусом на инфраструктуре машинного обучения и крупных GPU кластерах.
  • Опыт работы с облачными провайдерами, такими как AWS, GCP, инфра-код фреймворками и инструментами наблюдаемости.
  • Умение работать с научным стеком Python и Pytorch.
  • Опыт работы с структурами данных, моделированием данных и управлением базами данных, включая объектные и файловые системы хранения.
  • Сильные навыки общения, сотрудничества и документации.
  • Знакомство с Linux, Git, контейнерами, сетевыми технологиями и командной строкой.
  • Сильные навыки программирования на Python, Golang и/или Rust.

Если вы страстный инженер HPC, глубоко интересующийся AI и процветаете в сложных, инновационных средах, мы хотим услышать вас. Присоединяйтесь к нашей команде, чтобы помочь развитию AI технологий, работая вместе с талантливыми профессионалами в совместной и стимулирующей обстановке.

Мы стремимся к созданию разнообразного и инклюзивного рабочего места. Hugging Face является работодателем равных возможностей и приветствует разнообразие. Мы не дискриминируем по признаку расы, религии, цвета кожи, национального происхождения, пола, сексуальной ориентации, возраста, семейного положения, статуса ветерана или инвалидности.

В Hugging Face вы будете работать вместе с одними из самых ярких умов в индустрии. Мы способствуем культуре постоянного роста и предоставляем возмещение за соответствующие конференции, обучение и образование.

Мы заботимся о вашем благополучии. Наши льготы включают гибкий график работы, удаленные варианты, медицинскую, стоматологическую и офтальмологическую страховку для сотрудников и их иждивенцев, 12 недель родительского отпуска (20 недель для матерей), и неограниченное количество оплачиваемых выходных.

Хотя у нас есть офисы в Нью-Йорке и Париже, мы являемся распределенной командой. Удаленные сотрудники могут посещать наши офисы, и мы обеспечим ваше рабочее место всем необходимым для успешной работы, независимо от того, где вы находитесь.

Мы верим в разделение нашего успеха