Senior Data Engineer

Lead Data Engineer
Chicago
07/01/2024
-

Job expired!

Как ведущий промышленный дистрибьютор с операциями в Северной Америке, Японии и Великобритании, Grainger гордится тем, что обслуживает более 4,5 миллионов клиентов по всему миру. Мы доставляем продукцию с помощью инновационных технологий и глубоких взаимоотношений с клиентами, полностью воплощая нашу миссию Keep The World Working®. С объемом продаж в 2023 году, достигшим $16,5 млрд, Grainger остается приверженным предоставлению ценности для клиентов, поддержанию увлекательной культуры для членов команды и достижению сильных финансовых результатов.

Наш гостеприимный рабочий климат позволяет вам учиться, расти и вносить вклад, поддерживая работа бизнеса и безопасность людей. Признанная как одно из лучших мест для работы в 2024 году по версии Glassdoor и сертифицированная компания Great Place to Work-Certified™, мы приглашаем увлеченных людей присоединиться к нашей команде, продолжая лидировать в отрасли на протяжении следующих 100 лет.

Мы ищем ведущего инженера по данным для нашей поисковой команды. Эта команда включает в себя платформу для электронной коммерции, серверные службы, конечные точки машинного обучения и наш поисковый движок, что позволяет клиентам grainger.com эффективно находить продукцию. Вы будете подчиняться менеджеру по инженерии продуктов.

Ваши обязанности будут включать в себя

Проектирование и внедрение технических решений и процессов, обеспечивающих надежность и точность данных.
Создание трубопроводов, которые обеспечивают модели внедрения и векторные базы данных, сотрудничая с платформенными командами для удовлетворения ожиданий по времени отклика базы данных.
Разработка моделей данных, сопоставлений и новых активов данных, необходимых для команд по изучению данных, а также проведение исследовательского анализа данных на существующих продуктах и наборах данных.
Понимание тенденций и новых технологий, оценка производительности и применимости потенциальных инструментов для наших требований.
Обеспечение возможностей для обнаружения и курации данных для аналитических целей через сотрудничество с учеными данных и предоставление решений для интеграции данных.
Создание безопасных и эффективных продуктов данных в сотрудничестве с заинтересованными сторонами, включая команду и продукт-менеджеров.
Обеспечение того, чтобы трубопроводы обработки данных и задачи ETL проектировались для масштабирования, используя распределенные технологии для эффективной обработки данных.
Работа в рамках методологии доставок Agile/DevOps, обеспечивая инкременты продукта в итеративных спринтах.

Квалификации

Более 3 лет опыта в пакетной и потоковой ETL с использованием Spark, Python, Scala, Snowflake или Databricks для работы с данными или рабочими нагрузками машинного обучения. Опыт работы с Snowflake и Databricks обязателен.
Более 3 лет опыта в оркестрации и внедрении трубопроводов с использованием инструментов работы с рабочими процессами, таких как Databricks Workflows, Apache Airflow или Luigi.
Более 3 лет опыта подготовки структурированных и неструктурированных данных для моделей изучения данных.
Более 3 лет опыта работы с контейнеризацией и оркестрационными технологиями (Docker, Kubernetes) и написанием скриптов оболочки на Bash, Unix или Windows shell.
Опыт работы с векторными базами данных, такими как Milvus, Pinecone или Weaviate.
Опыт внедрения машинного обучения в трубопроводы данных для обнаружения, классификации и очистки данных.
Внедрение CI/CD с автоматическим тестированием в Jenkins, Github Actions или Gitlab CI/CD.
Знание услуг AWS, включая, но не ограничиваясь Glue, Athena, Lambda, S3 и DynamoDB.
Доказанный опыт внедрения жизненного цикла управления данными с использованием функций качества данных, таких как стандартизация, преобразование, рационализация, связывание