Senior Data Engineer

Job expired!

En tant que principal distributeur industriel opérant principalement en Amérique du Nord, au Japon et au Royaume-Uni, Grainger sert fièrement plus de 4,5 millions de clients dans le monde entier. Nous livrons des produits grâce à une technologie innovante et à des relations clients approfondies, incarnant véritablement notre mission : Garder le monde en marche®. Avec des ventes atteignant 16,5 milliards de dollars en 2023, Grainger reste dédié à fournir de la valeur à ses clients, à favoriser une culture engageante pour les membres de l'équipe et à obtenir des résultats financiers solides.

Notre lieu de travail accueillant vous permet d'apprendre, de grandir et de faire la différence en maintenant les entreprises en activité et leurs employés en sécurité. Reconnu comme un des meilleurs lieux de travail par Glassdoor en 2024 et certifié Great Place to Work™, nous invitons les personnes passionnées à rejoindre notre équipe alors que nous continuons à diriger l'industrie au cours des 100 prochaines années.

Nous recherchons un Ingénieur de Données Senior pour rejoindre notre équipe de recherche. Cette équipe comprend la plateforme de recherche e-commerce, les services backend, les points de terminaison de machine learning et notre moteur de recherche, permettant aux clients de grainger.com de trouver des produits efficacement. Vous reporterez au Manager de l'Ingénierie Produit.

Vos responsabilités incluront

  • Concevoir et mettre en œuvre des solutions techniques et des processus pour assurer la fiabilité et la précision des données.
  • Construire des pipelines qui alimentent les modèles d'embedding et les bases de données vectorielles tout en collaborant avec des équipes orientées plateforme pour répondre aux attentes de temps de réponse des bases de données.
  • Développer des modèles de données, des mappages et de nouveaux actifs de données requis par les équipes de data science, tout en effectuant une analyse exploratoire des données sur les produits et ensembles de données existants.
  • Comprendre les tendances et les technologies émergentes, évaluer les performances et l'applicabilité des outils potentiels à nos besoins.
  • Permettre la découverte et la curation des données à des fins analytiques en collaborant avec les data scientists et en fournissant des solutions d'intégration des données.
  • Créer des produits de données sécurisés et efficaces en collaboration avec les parties prenantes, y compris les membres de l'équipe et les gestionnaires de produits.
  • Assurer que les pipelines de traitement des données et les tâches ETL sont conçus pour évolutivité, en utilisant des technologies distribuées pour une gestion efficace des données.
  • Travailler dans une méthodologie Agile/DevOps pour livrer des incréments de produit dans des sprints itératifs.

Qualifications

  • 3+ années d'expérience dans l'ETL par lots et en streaming utilisant Spark, Python, Scala, Snowflake ou Databricks pour l'ingénierie des données ou les charges de travail de machine learning. Expérience avec Snowflake et Databricks indispensable.
  • 3+ années d'expérience dans l'orchestration et la mise en œuvre de pipelines avec des outils de workflow comme Databricks Workflows, Apache Airflow ou Luigi.
  • 3+ années d'expérience dans la préparation de données structurées et non structurées pour les modèles de data science.
  • 3+ années d'expérience avec les technologies de containerisation et d'orchestration (Docker, Kubernetes) et le scripting shell en Bash, Unix ou Windows shell.
  • Expérience de travail avec des bases de données vectorielles comme Milvus, Pinecone ou Weaviate.
  • Expérience d'intégration du machine learning dans les pipelines de données pour découvrir, classer et nettoyer les données.
  • Mise en œuvre de CI/CD avec des tests automatisés dans Jenkins, Github Actions ou Gitlab CI/CD.
  • Familiarité avec les services AWS incluant mais ne se limitant pas à Glue, Athena, Lambda, S3 et DynamoDB.
  • Expérience démontrée de mise en œuvre du cycle de gestion des données en utilisant des fonctions de qualité des données comme la standardisation, la transformation, la rationalisation, le linking et le matching.