Lead Data Scientist - NLP & Gen AI

Job expired!

Lieu : Guildford/Hybride

Salaire : Selon expérience + Allocation voiture + Bonus annuel + Avantages

Allianz est une compagnie d'assurance mondiale opérant dans 70 pays. Dès le premier jour, vous ressentirez la valeur de vos contributions car nous offrons des opportunités d'apprentissage et de développement de carrière de classe mondiale au sein d'une culture inclusive.

En tant que Lead Data Scientist (NLP & GenAI) chez Allianz Commercial, vous collaborerez avec des data scientists, des ingénieurs en données, des ingénieurs en ML et des analystes pour concevoir et mettre en œuvre des solutions permettant d'extraire des informations à partir de données textuelles non structurées. Vous participerez à divers projets, notamment la modélisation des sujets, la reconnaissance des entités, la génération de texte, la création d'ontologies et l'IA conversationnelle. Ce rôle nécessite une solide connaissance en NLP, de fortes compétences techniques et une passion pour l'innovation et la résolution de problèmes.

  • Mettre en œuvre la stratégie et la feuille de route architecturales ML/GenAI adaptées à la vision et aux objectifs stratégiques des parties prenantes commerciales.
  • Rechercher, concevoir et développer des solutions utilisant des modèles et algorithmes NLP pour extraire des informations à partir de données textuelles non structurées.
  • Collaborer avec les ingénieurs en données pour prétraiter et nettoyer les données textuelles afin qu'elles soient compatibles avec les modèles NLP.
  • Appliquer des techniques d'apprentissage automatique et de deep learning pour la classification de texte, la reconnaissance d'entités nommées, la recherche de connaissances, la modélisation des sujets et la génération de texte.
  • Construire et exploiter des graphes de connaissances pour améliorer la compréhension du langage et permettre des applications NLP avancées.
  • Architecturer et préconiser des technologies AI/ML qui s'intègrent parfaitement aux systèmes existants.
  • Développer des méthodes pour utiliser des LLM comme GPT, BERT, et des LLM open-source (Llama2) pour des tâches de compréhension et de génération du langage naturel.
  • Effectuer des analyses exploratoires de données pour obtenir des informations sur les données textuelles et développer des stratégies de prétraitement efficaces.
  • Intégrer des modèles NLP dans nos pipelines de données et systèmes en collaboration avec des ingénieurs MLops.
  • Évaluer et comparer des algorithmes NLP, des cadres de graphes de connaissances et des architectures LLM, en recommandant des approches appropriées pour des cas d'utilisation spécifiques.
  • Se tenir à jour des dernières recherches et avancées en NLP, graphes de connaissances et LLM pour améliorer nos capacités NLP.
  • Communiquer les résultats aux parties prenantes techniques et non techniques par le biais de rapports, de visualisations et de présentations.
  • Collaborer avec des équipes transversales pour définir les objectifs du projet, les exigences et les mesures de succès.
  • Engager avec les architectes d'entreprise et les ingénieurs MLOps pour tester des cas d'utilisation et discuter des configurations architecturales.
  • Encadrer et guider les membres juniors de l'équipe pour favoriser leur croissance en NLP.
  • Licence ou Master en informatique, Data Science ou un domaine connexe, ou expérience équivalente.
  • Expérience avérée en tant que Data Scientist avec un accent sur le NLP et les graphes de connaissances. Une familiarité avec Azure Open AI et divers LLM pour la génération augmentée par la récupération (RAG) est souhaitable.
  • Expérience en apprentissage automatique sur les graphes (par exemple, réseaux de neurones sur les graphes, science des données sur les graphes) et applications pratiques, y compris la création de graphes de connaissances et les langages de requête comme Cypher.
  • Expérience avec l'architecture LLM (par exemple, Transformer, GANs, VAEs), le peaufinage PEFT/LoRA, l'incrustation de contexte, les bases de données vectorielles et les techniques de recherche sémantique.
  • Maîtrise de Python et des bibliothèques NLP telles que NLTK, spaCy, Transformers, Hugging Face, B