Entreprise : Groupon
Groupon est une place de marché de premier plan qui connecte les gens avec le meilleur de leur ville ou de leur destination. Grâce au commerce mobile en temps réel dans les entreprises locales, les événements en direct et les destinations de voyage, Groupon aide les individus à découvrir des expériences qui rendent la vie pleine, amusante et gratifiante. En soutenant les entreprises locales, nous favorisons des relations solides avec les clients et des communautés dynamiques. Bien que nous ayons des milliers d'employés dans le monde entier, notre culture inspire l'innovation, récompense la prise de risques et célèbre le succès.
Chez Groupon, nous comprenons que les grandes personnes font les grandes entreprises. Nous combinons le meilleur des deux mondes en associant les ressources et l'échelle d'une grande entreprise avec l'autonomie et le potentiel d'impact d'une organisation plus petite. Nous sommes curieux, amusants, un peu intenses et profondément engagés à aider les entreprises locales à prospérer.
L'équipe d'ingestion de données chez Groupon est centrale pour tout ce qui concerne les données. Nous définissons et construisons des solutions de nouvelle génération basées sur le cloud pour ingérer et organiser des pétaoctets de données dans notre lac de données et notre entrepôt de données. Notre mission est de permettre aux analystes de données et aux scientifiques de données de toutes les unités commerciales de prendre des décisions commerciales éclairées. Dans ce rôle, vous aurez la chance de combiner vos compétences en informatique, systèmes distribués et systèmes de production évolutifs et performants.
Vos responsabilités :
- Concevoir et développer des pipelines et des cadres d'ingestion de données par lots/flux à volume élevé couvrant les plateformes de données AWS et GCP.
- Concevoir, coder et lancer des plateformes d'ingestion et de curation de données de nouvelle génération.
- Participer à la définition des exigences, aux discussions architecturales des systèmes et des données.
- Diriger techniquement et encadrer les ingénieurs juniors dans les meilleures pratiques de développement logiciel et d'ingénierie des données.
- Collaborer avec des équipes agiles interfonctionnelles, y compris des ingénieurs logiciels, des ingénieurs de données, des experts en ML et des analystes de données.
Nous sommes ravis de vous accueillir si vous avez:
- BS/MS en informatique avec plus de 5 ans d'expérience dans les systèmes distribués, l'ingénierie des données ou le développement de logiciels.
- Compétences solides en codage dans des langages tels que Python et Java.
- Expérience avec des bases de données SQL et NoSQL (Teradata, MySQL, Postgres, Cassandra, Elasticsearch, HBase, etc.).
- Familiarité avec la ligne de commande UNIX.
- Expérience des technologies de big data telles qu'Apache Spark, Hadoop, Hive, etc.
- Expérience approfondie avec les ETL, la traçabilité des données et les problèmes de qualité des données.
- Expérience dans les pipelines de données par lots et en streaming.
- Expérience avec les technologies cloud AWS ou GCP, en particulier celles liées au traitement des données à grande échelle.
- Compréhension approfondie des services de production avec des SLA stricts et des pratiques CI/CD.
- Excellentes compétences en communication écrite et verbale.
- Passion pour la construction de plateformes de données et désir d'innover.
Atouts supplémentaires :
- Expérience avec Airflow et Apache Kafka.
- Connaissance de Scala.
- Expérience avec HBase et le cache Redis.
- Expérience dans Google Data Streams et Google Dataproc.
- Expérience avec les technologies de capture de données en changement (CDC).
- Expérience avec les technologies modernes d'entrepôt de données telles que Delta Lake et les frameworks Hudi.
- Expérience dans le développement d'applications distribuées avec des outils de journalisation centralisée, de métriques, de surveillance et d'alerte.
Traits importants :