PostDoc/Research Engineer in NLP – Question-Answering and Chatbot project

When:
02/12/2022 – 03/12/2022 all-day
2022-12-02T01:00:00+01:00
2022-12-03T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire Hubert Curien – Université de Saint-Et
Durée : 18 mois
Contact : Francois.Jacquenet@univ-st-etienne.fr
Date limite de publication : 2022-12-02

Contexte :
Dans le cadre du projet R&D Booster qaBot : Question Answering et Chatbot, réunissant les entreprises The QACompany, Wikit et le laboratoire Hubert Curien, nous recrutons un.e post-doc ou ingénieur.e de recherche pour une durée de 18 mois.

Les agents conversationnels (chatbots) sont de plus en plus utilisés dans tous les secteurs pour fournir une assistance rapide et bon marché aux utilisateurs. En adressant une question, l’utilisateur exprime son intention ; celle-ci est reconnue parmi une liste d’intentions du système qui donne alors sa réponse à l’utilisateur. A l’instar de tout système expert, cette technique a pour avantage de fournir des réponses précises car préparées. L’inconvénient est de nécessiter un temps important de conception et de maintenance des scénarios conversationnels avec les intentions associées. Les systèmes de questions-réponses (Question Answering, QA) sont apparus très récemment, en particulier pour interroger des bases de documents. L’utilisateur adresse sa question, et le système répond en sélectionnant un document et en y identifiant le texte répondant à la question. La technique des systèmes de QA nécessite moins d’effort de conception spécifique, mais elle nécessite actuellement des ressources d’entraînement très volumineuses (questions et réponses dans les documents) qui limite son adoption au-delà des très grosses bases telles que Wikipedia et pour l’anglais.

Le projet qaBot est axé sur le traitement automatique du langage naturel (NLP) et l’apprentissage profond (Deep Learning). Son objectif est d’amener sur le marché une approche mixte combinant la technologie de Chatbot – apportée par l’entreprise lyonnaise Wikit – et celle de Questions-Réponses sur des documents – élaborée par The QA Company. Le volet scientifique et académique du programme est sous la direction du laboratoire Hubert Curien (avec en tutelles principales l’Université de Saint-Étienne et le CNRS).

Sujet :
La personne recrutée devra s’investir principalement sur le soutien scientifique au projet sur les volets de l’entraînement des modèles, pour des données spécifiques et peu volumineuses (régimes few shots), l’étude et la synthèse des travaux récents, et l’implémentation/l’évaluation de celles-ci. Plus spécifiquement les verrous scientifiques identifiés sont :

* Concevoir une architecture neuronale performante avec des ensembles de données d’entraînement frugaux (few-shots) pour la tâche d’extraction de réponse à base de question (extractive question answering) sur des domaines spécifiques

* Définir des métriques pour évaluer les chatbots créés. Ces métriques seront utilisées pour évaluer les systèmes pendant la durée du projet.

* Adaptation rapide des modèles linguistiques existants sur des langues non anglaises.

* Adapter le système à des corpus de textes dans des formats spécifiques (comme par exemple pdf ou sites Web)

Profil du candidat :
Le/la candidat.e doit posséder des compétences solides en Apprentissage Automatique (conception de modèles, maîtrise des framework d’apprentissage deep tels que PyTorch/TensorFlow), mais aussi des compétences avancées en Python, une forte appétence pour les données textuelles, le question answering et les Modèles de Langues dits Larges (BERT, PaLM), ainsi que le surapprentissage et l’application de ces derniers (Notamment via HuggingFace).

Formation et compétences requises :
Doctorat ou Master spécialité Machine Learning et plus particulièrement Natural Language Processing

Adresse d’emploi :
Le lieu d’accueil est le laboratoire Hubert Curien, unité mixte de recherche (UMR 5516) de l’Université Jean Monnet de Saint-Etienne, du Centre National de la Recherche Scientifique (CNRS) et de l’Institut d’Optique Graduate School. Il est composé d’environ 90 chercheurs, professeurs et maîtres de conférences, 20 ingénieurs et personnels administratifs et 130 doctorants et post-doctorants. Nos activités de recherche sont organisées selon deux départements scientifiques : Optique, photonique et surfaces et Informatique, sécurité, image. L’équipe Data Intelligence, au sein de laquelle la personne recrutée travaillera, est spécialisée dans le domaine du Machine Learning

Le salaire est modulable en fonction de l’expérience du/de la candidat.e. La personne recrutée aura accès à un poste de travail avec un ordinateur permettant l’utilisation du cluster de calcul du laboratoire. Le début du contrat est prévu pour début Janvier 2023. Le laboratoire se situe sur le même campus que la société The QA Company, facilitant ainsi les échanges avec les chercheurs et le doctorant de la société impliqués dans le projet.

Pour candidater, merci d’envoyer à antoine.gourru@univ-st-etienne.fr et francois.jacquenet@univ-st-etienne.fr : un CV détaillé et une lettre de motivation, tout cela le plus rapidement possible.