Amélioration de systèmes d’extraction de relations temporelles à partir de textes en langue naturelle : étude de l’injection de connaissances en vue de l’hybridation de systèmes par apprentissage profond

When:
29/02/2024 all-day
2024-02-29T01:00:00+01:00
2024-02-29T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LIFO
Durée : 6 mois
Contact : anais.halftermeyer@univ-orleans.fr
Date limite de publication : 2024-02-29

Contexte :
Nous proposons, dans le cadre de ce sujet de stage financé, d’explorer l’intégration de connaissances dans un système par apprentissage profond, reposant sur un modèle de langue, à résoudre des tâches de raisonnement temporel. Nous proposons de travailler dans le cadre de l’extraction d’informations temporelles qui associe à un texte en langue naturelle une représentation synthétique des évènements qui y sont relatés. Une représentation classique de ce type de données est un graphe de relations temporelles entre les évènements relatés et/ou entre expressions temporelles [1].
Les récentes avancées du deep learning en matière de compétences langagières nous amène à nous interroger sur la maîtrise de l’humain sur les processus de résolution de tâche reposant sur la langue naturelle. Ces modèles ont des architectures de plus en plus complexes et sont de plus en plus gourmands en puissance de calcul et en données d’entraînement. Cependant ils restent insuffisants puisque les connaissances générales sur des relations temporelles ne sont pas exploitées pour mieux orienter les résultats, ainsi que pour expliquer ces résultats.

Un premier système [3] a proposé de construire un graphe temporel à partir de textes médicaux en s’appuyant de BERT, de la mise à profit de règles en logique probabiliste dans la phase d’apprentissage du modèle, ainsi qu’à la phase d’’inférence globale. Ce travail hybride a ouvert des pistes de recherche sur l’apport considérable que pouvait représenter la connaissance propre à la temporalité via le travail sur les règles. Afin de rendre plus performant les systèmes, [4] a proposé de tirer partie de l’analyse syntaxique des entrées avec succès. Dans la même lignée de [2], nous proposons de tirer partie de la représentation de la connaissance temporelle comme levier de performance et d’explicabilité du système dans sa totalité.

Sujet :
Nous nous intéressons à intégrer de la connaissance dans ces modèles afin de résoudre au mieux les tâches de raisonnement temporel, et ce via l’expression de contraintes afin de :
• tirer profit du meilleur des deux mondes que sont les contraintes et les modèles de langues acquis par deep learning
• proposer des modèles hybrides en partie explicables
• faire reposer nos systèmes sur une puissance de calcul maîtrisée combinée à une méthodologie reproductible d’injection de connaissances

Concrètement, étant donné un système d’apprentissage profond reposant sur un modèle de langue entraîné à traduire un texte en un graphe temporel représentant les évènements narrés dans le texte en entrée, l’injection de connaissances via l’expression de contraintes modifiera les sorties du système.
Nous cherchons à figer une méthodologie permettant d’injecter des connaissances de manière incrémentale afin de guider notre système tout en maîtrisant :
• la taille de notre modèle
• la taille de nos données d’entraînement
• la complexité de nos contraintes

Profil du candidat :
Idéalement, la personne recrutée terminera des études de niveau Master (Master 2) et disposera de connaissances théoriques et pratiques sur les techniques par apprentissage profond. Un intérêt pour la langue et son traitement automatique serait apprécié, sans être un pré-requis à recrutement.

Formation et compétences requises :
niveau Master (Master 2)

Adresse d’emploi :
LIFO Orléans campus de la Source

Document attaché : 202402081058_Sujet_Stage.pdf