Ingénieur principal en apprentissage automatique

Job expired!

*Ce poste correspond à l'embauche intense de l'équipe AI/ML Hyperconnect 2023. Veuillez vérifier les informations détaillées sur le site Web (lien)

Un ingénieur en apprentissage automatique (Machine Learning Engineer, MLE) chez Hyperconnect identifie et résout les problèmes qui sont difficiles à aborder avec les technologies existantes dans les services qui connectent les gens, en innovant l'expérience utilisateur grâce à la technologie d'apprentissage automatique. Pour cela, nous développons de nombreux modèles dans divers domaines, y compris les vidéos, les voix et les textes, et nous les fournissons de manière stable via des serveurs mobiles et cloud, en résolvant les sujets de recherche auxquels nous sommes confrontés. Notre objectif est que nos technologies contribuent à la croissance du service réel.

Sous cet objectif, les ingénieurs ML d'Hyperconnect ont travaillé au développement de technologies d'apprentissage automatique qui contribuent à divers produits d'Hyperconnect tels qu'Azar et Hakuna, et ils recherchent des moyens d'utiliser facilement ces technologies accumulées dans divers services d'affaires globaux.

Un ingénieur en apprentissage automatique nécessite des compétences de recherche en tant que scientifique pour étudier et améliorer les modèles de pointe, et des compétences de développement en tant qu'ingénieur pour maximiser les performances d'inférence en tenant compte de la complexité temporelle / spatiale du modèle créé. Sur la base de ces compétences, nous effectuons divers travaux tels que la découverte / définition des problèmes rencontrés dans les services réels, la réplication ou le développement de modèles SotA pour résoudre les problèmes, le déploiement de modèles dans des environnements de périphériques et de serveurs, et l'amélioration continue des modèles tout en surveillant. Nous collaborons activement et recevons de l'aide de diverses organisations professionnelles telles que les ingénieurs backend / frontend / DevOps, les analystes de données, les PM, etc. Il serait enrichissant de se référer aux informations suivantes pour une discussion plus détaillée sur la façon dont nous travaillons.

• AI in Social Discovery (Blending Research and Production)

• [Comment fonctionne l'AI Lab] Entretien avec le chef de l'IA - Shurain

L'un des objectifs de l'équipe est également de publier les résultats de la recherche sous forme d'article ou de code. Lors de la création de modèles d'apprentissage automatique à des fins d'utilisation dans les produits, il y a souvent des insuffisances dans la recherche existante. Tous les participants au projet travaillent ensemble pour organiser les parties significatives de la recherche menée pour combler ces lacunes, et la publient avec le code si possible. En conséquence, jusqu'à présent, nous avons été en mesure d'obtenir les résultats de recherche externes suivants.

• En 2023, la recherche sur leplacement des seuils pour répondre à plusieurs critères de classification dans l'environnement de modération est publiée dans WSDM 2023

• En 2022, la recherche sur l'amélioration de la diversité sémantique dans la génération de conversations est publiée dans EMNLP 2022

• En 2022, la recherche sur les méthodes efficaces d'apprentissage dans des environnements avec des bruits de label est publiée dans ECCV 2022

• En 2022, la recherche sur le chatbot qui imite le personnage cible avec quelques discours du personnage cible est publiée dans NAACL 2022

• En 2022, la recherche sur l'amélioration des performances en utilisant des exemples dans les modèles de génération de conversations est présentée dans l'atelier ACL 2022

• En 2022, la recherche sur la technologie de distillation pour la classification audio dans un environnement mobile est publiée dans ICASSP

• En 2021, la recherche sur la normalisation des caractéristiques capable de préserver l'importance pour la prédiction du taux de clics remporte le Best Paper Award de l'atelier ICDM

• En 2021, présentation du modèle de prédiction du taux de clics efficace basé sur l'apprentissage tabulaire à l'atelier ICLR 2021

• En 2021, la recherche sur l'utilisation de modèles génératifs à grande échelle pour les chatbots basés sur Retriever est publiée dans EMNLP 2021

• En 2020, la technologie pour résoudre le problème de reconnaissance visuelle à longue queue du point de vue du décalage de la distribution des étiquettes est publiée dans CVPR 2021

• En 2020, la technologie de synthèse vocale (TTS) à travers l'apprentissage en peu de temps est publiée dans INTERSPEECH 2020

• En 2019, la technologie de reproduction faciale à travers l'apprentissage en peu de temps est publiée dans AAAI 2020

• En 2019, le modèle de détection de mots-clés (TC-ResNet) qui fonctionne rapidement sur mobile est publié dans INTERSPEECH 2019

• En 2019, le modèle de segmentation d'image léger optimisé pour l'environnement mobile (MMNet) est téléchargé dans l'archive

• 2ème prix au concours d'identification d'image à faible consommation d'énergie (LPIRC) en 2018

Pour que la recherche ML se déroule bien, une infrastructure appropriée pour l'apprentissage en profondeur doit également être en place. Chez Hyperconnect, nous avons construit notre propre cluster de recherche en apprentissage profond pour permettre aux ingénieurs ML de mener suffisamment de développement et d'expérience de modèles. Vous pouvez utiliser divers équipements sur site, y compris un cluster composé de 20 DGX-A100 (un total de 160 GPU A100). De plus, nous utilisons activement Kubeflow pipeline, BigQuery, etc. pour les pipelines de production, la collecte de données et le prétraitement, et le service. De plus, nous travaillons avec divers ingénieurs logiciels (backend / frontend / DevOps / MLSE) qui aideront à la commercialisation des modèles ML.

Description de l'emploi

Hyperconnect s'efforce de diversifier les moyens d'appliquer la technologie d'apprentissage automatique aux produits. Les ingénieurs ML d'Hyperconnect travaillent principalement dans l'un des trois domaines suivants.

[Recommendation]

En résolvant divers problèmes de recommandation inclus dans le produit, nous fournissons une meilleure expérience à nos utilisateurs et contribuons finalement à l'augmentation des ventes à long terme. Nous recherchons des personnes qui peuvent résoudre les problèmes suivants avec nous. (Interview de l'équipe)

• Problèmes de recommandation de démarrage à froid pour donner une bonne expérience aux nouveaux utilisateurs (par exemple, système capable de comprendre les préférences des utilisateurs même avec des données de quelques coups, méthodes d'apprentissage pour améliorer les performances de recommandation pour les nouveaux utilisateurs lorsque les données sur les nouveaux utilisateurs sont insuffisantes, etc.)

• Problème de recommandation réciproque où les deux utilisateurs peuvent être satisfaits.

• Problème de recommandation en temps réel où l'inférence est effectuée très rapidement pour un groupe de candidats de recommandation qui change en temps réel ((session-based recommendation, graph-based recommendation, reinforcement learning, ….)

• Un problème de recommandation qui prend en compte le compromis entre plusieurs indicateurs cibles.

• Problème de recherche d'indicateurs cibles primaires pour améliorer les indicateurs à long terme.

[Trust & Safety]

Pour une expérience satisfaisante pour les utilisateurs, nous effectuons diverses recherches et développements pour comprendre le contenu du contenu et utiliser ces informations. Nous prenons en entrée des données non structurées composées de vidéos, de voix et de langage naturel et nous cherchons des personnes qui peuvent résoudre ensemble les problèmes suivants pour extraire des informations utiles pour prendre des décisions. (Interview de l'équipe)

• Problème des modèles légers et de l'optimisation qui peuvent accélérer la vitesse dans un environnement mobile.

• Problème des modèles multi-tâches ou multi-étiquettes efficaces et capables d'ajuster l'importance des étiquettes.

• Problème de l'utilisation de données multimodales partielles.

• Problème de détection en temps réel des utilisateurs anormaux (ex. spam/faux comptes) qui affluent en flux, basé sur les journaux de comportement des utilisateurs et les résultats de la compréhension du contenu.

• Problème des méthodes d'étiquetage de données efficaces à travers l'apprentissage actif ou sélection de l'ensemble de base pour réduire les données nécessaires pour l'apprentissage du modèle.

[Generative AI]

Avec diverses recherches et développements en intelligence artificielle générative, nous offrons aux utilisateurs une expérience nouvelle qui n'existait pas auparavant. Nous fabriquons des outils qui permettent aux utilisateurs de créer facilement du contenu personnalisé et de s'exprimer à l'intérieur du service, et nous développons de nouvelles fonctionnalités à l'aide de l'IA générative.