Modèle de langue à base de connaissance experte pour l’extraction d’information médicale à partir de données non structurées.

When:
01/03/2025 all-day
2025-03-01T01:00:00+01:00
2025-03-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : TIDS/– — –

Laboratoire/Entreprise : Institut de Recherche en Informatique de Toulouse
Durée : 5-6 mois
Contact : yohann.chasseray@irit.fr
Date limite de publication : 2025-03-01

Contexte :
Le stage sera réalisé au sein de l’équipe SIG, dans le département Gestion de Données de l’Institut de Recherche en Informatique de Toulouse (IRIT). L’IRIT est un laboratoire de recherche constitué de chercheurs en informatique, développant notamment des travaux autour du traitement automatique du langage, de la gestion des données, des connaissances et de l’extraction d’informations.
Le stage sera localisé sur le Campus de Castres, dans les locaux de l’école d’ingénieurs ISIS, qui forme des ingénieurs en informatique dans le domaine de la santé numérique. Des déplacements à Toulouse dans les locaux de l’IRIT sont à prévoir.

Sujet :
Les grands modèles de langue qui n’ont de cesse de se perfectionner représentent un outil puissant pour la compréhension fine des connaissances dans un contexte général mais également de manière plus spécialisée, dans des domaines métier spécifiques comme celui de la santé médicale. Notamment, les grands modèles de langue (LLMs) constituent une base solide pour la détection d’entités nommées (NER) ou de relation (RE) qui sont des tâches majeures pour le traitement des données médicales.
L’objectif de ce stage est donc de proposer des méthodes d’extraction d’entités nommées s’appuyant à la fois sur les LLMs (Phi-3 [1], BERT [2]) et sur des ontologies médicales (SNOMED CT [3], UMLS [4]), qui renferment des informations sémantiques précises sur les entités et relations recherchées. Pour cela, deux approches sont envisagées, s’appuyant toutes les deux sur les grands modèles de langues :
(A) Une approche qui utilise le contexte, permettant de guider un modèle de langue génératif en sélectionnant les types d’entités les plus pertinents dans une ontologie pour l’extraction d’entités nommées ou de relations.
(B) Une approche plus intégrée, visant cette fois à inclure directement la représentation ontologique au cours d’une étape de fine-tuning d’un modèle de langue et à interroger directement le modèle, sans fournir de contexte préalable.
En fonction des avancées, les résultats pourront faire l’objet d’une soumission à la conférence CLEF 2025 (https://clef2025.clef-initiative.eu/).

Profil du candidat :
Etudiant(e) en formation de niveau Bac+4/5, avec une spécialisation en Informatique ou Data Science et présentant des compétences en analyse, traitement et représentation de données.

Formation et compétences requises :
Les compétences suivantes seront fortement appréciées pour mener à bien les missions associées au sujet de stage :
• Bonnes connaissances en programmation (Python) et traitement automatique du langage.
• Connaissances de base sur les ontologies et bases de connaissances.
• Familiarités avec les modèles d’apprentissage automatique en général et le modèle transformer en particulier.

Adresse d’emploi :
Campus Universitaire, Rue Firmin Oulès, 81104 Castres
yohann.chasseray@irit.fr

Document attaché : 202501051355_Offre_de_stage_ISIS_IRIT.pdf