Classification automatique des domaines de connaissance d’entrées lexicographiques

When:
31/03/2024 all-day
2024-03-31T01:00:00+01:00
2024-03-31T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire ERIC (visites au LIRIS)
Durée : 4 à 6 mois
Contact : julien.velcin@univ-lyon2.fr
Date limite de publication : 2024-03-31

Contexte :
Ce stage s’inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François- Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s’intéressera à l’expérimentation de méthodes d’apprentissage automatique pour l’entraînement de modèles de classification afin d’identifier automatiquement les domaines de connaissance dans les articles du DUFLT. De manière générale, nous souhaitons dresser une liste des domaines et sous-domaines de connaissances mentionnés dans chacune des éditions du corpus, afin de quantifier et de comparer la place qu’ils occupent. Cela permettra de mettre en évidence l’évolution qualitative et quantitative de ces domaines dans la série DUFLT entre 1704 et 1771. Dans le cadre du stage, l’expérimentation portera sur les éditions de 1743 et 1771 que nous avons au format numérique.

Sujet :
Le ou la stagiaire devra s’appuyer sur les récentes avancées en intelligence artificielle et en TAL pour proposer des solutions pour la classification des textes. Nous nous intéresserons en particulier aux approches neuronales pour la modélisation thématique et aux plongements de mots (ainsi que d’unités plus grandes : phrases, alinéas, articles) pour la modélisation et la spécialisation de modèles de langues. Le volume limité et la segmentation temporelle d’un corpus historique en ancien français rendra difficile l’utilisation pure et simple des modèles pré-entraînés sur des données modernes comme CamemBERT, FlauBERT, BARthez. Un premier objectif sera alors d’évaluer les performances de ces modèles de langues pour la tâche de classification supervisée et de comparer les résultats entre les deux éditions du corpus. Pour cette tâche, le ou la stagiaire pourra s’appuyer sur nos premiers résultats obtenus dans le cadre du projet GEODE sur l’Encyclopédie de Diderot et d’Alembert.

Profil du candidat :
Stage pour un niveau BAC+5 en Informatique (stage de fin de M2, PFE)

Formation et compétences requises :
Des compétences sont attendues en programmation et en science des données (Machine Learning et Deep Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.

Adresse d’emploi :
Laboratoire ERIC, Université Lyon 2, Bron (principalement), avec des visites au laboratoire LIRIS, INSA Lyon, Campus La Doua, Villeurbanne.

Document attaché : 202312010935_Sujet_stage_2024_ASLAN_PreEMADIT.pdf