Scientifique des données

  • Full Time
Job expired!

À propos de Cybersyn

Cybersyn est une nouvelle entreprise DaaS (data-as-a-service), soutenue par Sequoia, Coatue et Snowflake. Notre mission est de rendre les données économiques du monde transparentes pour les gouvernements, les entreprises et les entrepreneurs et de permettre à une nouvelle génération de décideurs d'agir. Nous acquérons des actifs de données uniques (entreprises, licences, droits de données, dividendes des consommateurs) et nous construisons des produits dérivés à partir de ceux-ci, en nous concentrant sur la mesure de ce que les consommateurs et les entreprises dépensent. Vous pouvez penser à Cybersyn comme à une croisée entre une société d'investissement et une entreprise technologique axée sur les données : si nous réussissons, nous perturberons l'espace traditionnel de l'intelligence de marché. La récompense est grande - si nous réussissons, nous pouvons perturber une industrie qui vaut des milliards de dollars et construire un "SimCity pour le monde réel".

Nous avons déjà publié un certain nombre de jeux de données publics que nous avons nettoyés, restructurés et rendus joignables sur le Snowflake Marketplace.

  • Voir nos données actuelles ici.

  • Demo de nos données sur notre application Streamlit ici.

À propos du rôle :

Cybersyn recherche un data scientist pour relever les défis que pose la modernisation du monde des données économiques. Vous rejoindrez une équipe incroyablement talentueuse et dynamique de data scientists et d'ingénieurs axés sur le produit, qui travaillent au développement de solutions innovantes à des problèmes statistiques complexes et à la construction de notre vision de produit de données. 

Ce que vous allez faire :

  • Construire des produits de données dérivés qui répondent à certaines des questions les plus complexes et intéressantes sur l'économie ; en pratique, cela signifie :

    • Prototypage et mise en œuvre de pipeline de traitement de données et de modèles statistiques en Python/SQL/R qui contribueront finalement à notre vision technique

    • Exploitation de SQL, Python, dbt, et des outils d'orchestration (par exemple, Dagster)

    • Travailler en étroite collaboration avec les ingénieurs, les ingénieurs en analyse et les chefs de produit pour exécuter notre feuille de route

  • Faire un rapport au responsable de la science des données et l'aider à réaliser notre vision du produit de données.

Qui vous êtes :

  • Scientifique des données à l'esprit commercial, capable d'équilibrer la rigueur technique avec une exécution rapide et des résultats concrets.

  • Au moins deux ans d'expérience pratique dans le développement de modèles statistiques et de pipelines de données pour donner du sens à des données imparfaites. Lisez-en plus sur notre thèse ici et ici.

  • Des antécédents avérés de mise en œuvre de projets de recherche pratiques du début à la fin.

  • Une expérience préalable avec des données alternatives, de tierces parties, est fortement préférée.

  • Une expérience préalable dans les domaines suivants est un plus : méthodes d'échantillonnage et d'inférence, analyse de données de panel, analyse de données bayésienne, modélisation de séries temporelles, normalisation des données, analyse numérique

  • Expérience dans Python/R et SQL est requise ; idéalement a déjà travaillé avec des entrepôts de données cloud auparavant (Snowflake, BigQuery, Redshift, etc.) 

    • Vous devez avoir une bonne idée de ce qu'est un "code propre", avoir de l'expérience dans la revue de Pull Requests et le développement de normes de codage

    • Une expérience préalable avec le travail sur de grandes données est fortement préférée.

  • Expérience dans dbt, AWS, Github tous très utiles, mais pas strictement nécessaire

Ce que vous obtenez :

  • La possibilité de façonner le produit initial de Cybersyn, les décisions technologiques et la possession des méthodologies et des bibliothèques statistiques 

  • Accès à certaines des données économiques les plus intéressantes du monde, y compris les dépenses en temps réel, les transactions, les flux de clics, les données provenant à la fois de sources tierces et de sources propres. Une grande partie de nos données n'est pas disponible pour d'autres tiers 

  • Culture dynamique, beaucoup de responsabilité et d'autonomie dès le premier jour