Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LISN
Durée : 12 mois
Contact : anne.vilnat@limsi.fr
Date limite de publication : 2022-06-30
Contexte :
Nous recherchons un ingénieur de recherche/post-doctorant expérimenté pour travailler au sein du laboratoire LISN (laboratoire mixte CNRS-Université Paris-Saclay), avec des chercheurs spécialisés en Traitement Automatique des Langues (TAL).
Cette recherche s’inscrit dans le cadre du programme de maturation de 18 mois entre l’entreprise Professorbob.ai, leader dans l’apprentissage adaptatif, la SATT Paris Saclay (Société d’Accélération du Transfert de Technologies) et le CNRS. Les postes sont localisés dans les locaux du CNRS LISN.
Il s’agit de travailler sur un projet d’assistant virtuel d’enseignement dédié à l’éducation et la formation, qui fait l’objet d’une collaboration entre le laboratoire et l’entreprise qui travaille sur la mise au point de Professorbob.ai ( https://professorbob.ai/ )
Cet assistant devra être en mesure d’aider des étudiants dans leurs apprentissages :
– En répondant à des questions en rapport avec les sujets des cours
– En proposant des outils pour l’ancrage de connaissances
– En personnalisant l’apprentissage via des méthodes “d’apprentissage adaptatif”.
La création de l’assistant virtuel requiert des connaissances et une maîtrise techniques avancées sur les modèles et problématiques en traitement du langage naturel. Plus spécifiquement, nous nous intéresserons aux problématiques de génération de textes, de recherche d’informations, d’évaluation du langage et de transfert de domaine.
Les récentes avancées en matière de traitement de la langue nous permettent d’envisager la construction d’un tel système, en particulier grâce aux approches neuronales pour la génération de questions ou la recherche d’informations. Malheureusement, si les modèles les plus performants permettent d’obtenir des résultats satisfaisants en langue anglaise, peu de modèles pré-existent pour la langue française. Aussi, même s’il existe des corpus publiquement accessibles pour la tâche de génération de questions, ces corpus ne correspondent que partiellement aux types de question souhaités pour un assistant de cours. Pour pallier ce manque de données, nous travaillons à la mise en place d’un corpus de questions de cours en langue française d’ici à la date du début de contrat.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.
Les principales problématiques étudiées dans le poste proposé porteront sur la génération de questions et de réponses.
Sujet :
Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.
Le but global du projet est d’assister un enseignant en l’aidant à répondre à des questions nombreuses et répétitives des apprenants. Il faut donc apprendre à répondre aux questions, en s’appuyant sur des données fiables, fournies par les enseignants. En s’appuyant sur les travaux récents dans le domaine du TAL, on sait qu’il est possible d’améliorer les systèmes classiques et basiques de réponses à des questions. Cependant, les données au sein desquelles les réponses devront être trouvées ne sont pas les données classiques utilisées dans les campagnes d’évaluation, mais des données en lien avec la discipline en cours d’apprentissage.
Il sera dans un premier temps demandé de traiter les données de questions/réponses récoltées lors de la campagne d’annotation. Le travail consistera donc à formater et nettoyer les données disponibles.
Dans un second temps, les travaux porteront sur la génération de questions, mais aussi sur leur évaluation. Pour cela, il faudra évaluer quels sont les modèles et métriques les plus adéquats, mais aussi mettre en place un protocole d’évaluation pour valider les approches proposées. Il faudra par la suite être en mesure de déployer ces approches sur le système.
Enfin, les approches de sélection/génération de réponses seront étudiées et mises en place afin de permettre des améliorations significatives de l’assistant. Notons aussi que les problématiques d’évaluations étudiées pour la génération de questions pourront s’avérer aussi utiles dans cette dernière étape.
Le travail sera fait dans un cadre collaboratif avec 2 autres chercheurs et devra prendre notamment en compte les axes de recherche de l’équipe : transfer learning, continuous learning et IA conversationnelle.
Profil du candidat :
Doctorat ou Master en rapport avec le Deep learning, idéalement avec le traitement de la langue naturelle
Formation et compétences requises :
Bonne maîtrise des outils du TAL :
– Modèles Deep Learning: connaissance théorique et manipulation avancée des RNN, Auto-encoders, Transformers (BERT / Roberta / T5,..), etc.. surtout des modèles de Question Answering, Question Generation, etc..
Bibliothèques et frameworks Deep Learning/Machine Learning comme Pytorch, Tensorflow, Keras, NLTK, Spacy, Scikit-learn, etc..
– Algorithmique: très bonne connaissance et maîtrise pratique des algorithmes classiques sur les textes, arbres, graphe – Statistiques: connaissances des techniques d’échantillonnage
– Expérience du développement et du débogage en Python
– Maîtrise de la démarche Data Science : définition des tâches, définition de métriques de performance, veille technologique, analyse de publications scientifiques, implémentation, fine-tuning et évaluation de modèles
– Anglais scientifique courant
– Aptitude à communiquer et à travailler en équipe
Compétences supplémentaires souhaitables
Moteurs de recherche et traitements textuels: indexation, utilisation d’ElasticSearch, Lucène / SolR, formalisation et recherche d’expressions régulières
Adresse d’emploi :
LISN
Campus universitaire bât 507
Rue du Belvedère
F – 91405 Orsay cedex
Document attaché : 202205051010_LISNingénieurR&D-Post-Doc.pdf