Machine Learning Data Engineer

Machine learning
Seattle
08/28/2024
-

Job expired!

Concevoir et Construire des Pipelines de Données : Créer des pipelines de données efficaces, fiables, diffusables et évolutifs en utilisant des outils et des techniques standard de l'industrie tels que TorchData, WebDataset, Apache Parquet, Python et SQL.

Ingestion de Données : Développer des stratégies pour l'ingestion de données provenant de fournisseurs, en assurant la qualité et la cohérence des données.

Pré-traitement des Données : Mettre en œuvre un pré-traitement parallèle pour nettoyer, transformer, dédupliquer, combiner et normaliser les données.

Curation et Enrichissement des Données : Curater, augmenter et enrichir les ensembles de données pour améliorer la qualité des données et fournir des informations précieuses aux parties prenantes.

Génération de Données Synthétiques : Collaborer avec les équipes de données synthétiques pour générer des données et les intégrer dans les pipelines existants.

Collaboration avec les Équipes Clients : Travailler en étroite collaboration avec les scientifiques, ingénieurs et équipes produit des clients pour comprendre les besoins en données et collaborer sur la livraison des données.

Surveillance, Maintenance & Mise à Jour : Surveiller les pipelines de données pour les performances, les erreurs et les goulets d'étranglement, en mettant en œuvre une maintenance et des mises à jour régulières. Rester informé des dernières tendances et meilleures pratiques.

Documentation Technique : Documenter les pipelines de données, les paramètres et les procédures pour faciliter la maintenance et le partage des connaissances.

Diplôme de Bachelor en Informatique, Technologie de l'Information, ou un domaine connexe.

Au moins 3 ans d'expérience en tant qu'Ingénieur Logiciel ou Ingénieur de Données.

Compétences solides en ingénierie logicielle, maîtrise de Python.

Expérience avec des outils et formats de traitement des données tels que Apache Parquet, WebDataset, TorchData, Pandas, Shell Scripting, Protobuf, TFRecord.

Connaissance des architectures d'entrepôt de données et des systèmes basés sur le cloud (par exemple, AWS S3).

Solides compétences en résolution de problèmes et en analyse.

Excellentes compétences en communication et en collaboration.

Diplôme de Master en Science des Données ou un domaine connexe.

Expérience avec les techniques de curation et d'enrichissement de données, en particulier pour les données textuelles, d'image et vidéo à grande échelle.

Familiarité avec le traitement du langage naturel (NLP), les concepts et cadres de l'apprentissage automatique (PyTorch).

En tant qu'employeur garantissant l'égalité des chances, ICONMA offre un environnement de travail qui soutient et encourage les capacités de toutes les personnes sans distinction de race, couleur, religion, sexe, orientation sexuelle, identité ou expression de genre, origine ethnique, nationalité, âge, statut de handicap, affiliation politique, génétique, état civil, statut d’ancien combattant protégé ou toute autre caractéristique protégée par les lois fédérales, étatiques ou locales.