Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : MaIAGE – INRAE et AgroParisTech Saclay
Durée : 6 mois
Contact : claire.nedellec@inrae.fr
Date limite de publication : 2023-12-07
Contexte :
Contacts : claire.nedellec@inrae.fr, vincent.guigue@agrosparistech.fr, nicolas.sauvion@inrae.fr
Les phytoplasmes sont des bactéries qui causent des maladies d’arbres fruitiers dont les impacts économiques sont très importants en Europe [Hadidi et al., 2011]. Ces bactéries pathogènes s’attaquent à différents types de plantes de la famille des rosacées (Prunus, pommiers et poiriers). Les bactéries peuvent être transmises d’une plante à l’autre par des insectes piqueurs suceurs, des psylles du genre Cacopsylla. Ces bactéries et leurs insectes vecteurs sont endémiques en Europe. Ils sont largement présents dans les vergers ainsi que dans les habitats sauvages, ce qui limite leur contrôle et, par conséquent l’endiguement des maladies dont ils sont responsables. Les psylles vecteurs sont aujourd’hui contrôlés principalement par des insecticides, mais l’évolution des pratiques agricoles pourraient être, voire sont déjà, la source de nouvelles émergences de maladies. En effet, la réduction de l’utilisation des pesticides en accord avec le plan EcoPhyto en France et les nouvelles réglementations européennes moins contraignantes en terme de surveillance facilite leur dissémination.
Les efforts de la recherche pour mieux comprendre la biologie et l’écologie des psylles vecteurs (ou potentiellement vecteurs) de phytoplasmes visent à proposer de nouveaux moyens d’anticipation et de contrôle du risque épidémiologique. Malgré ces travaux, la connaissance des interactions biologiques de ces bactéries, insectes et plantes est incomplète et mal établie, notamment en raison du très grand nombre de publications.
Le web a démultiplié les possibilités d’accès aux documents scientifiques y compris très anciens. L’extraction automatique d’informations contenues dans ce type de documents par des méthodes de TAL a fait ses preuves dans de nombreux domaines de la biologie, notamment l’extraction d’entités nommées, leur normalisation et leur mise en relation. Les progrès récents sont considérables grâce aux larges modèles de langue (LLMs) qui ont trouvé de nombreuses applications notamment dans le domaine biomédical. Le domaine de l’écologie, sujet de ce stage, soulève des questions d’intérêt pour la recherche en TAL. Tout d’abord, les interactions biologiques d’intérêt impliquent plusieurs participants, au moins un pathogène, un vecteur et une plante, l’extraction de relations n-aires est donc nécessaire. Les articles reprennent des informations publiées en les citant. Associer la source bibliographique (la référence) à l’information extraite est nécessaire pour caractériser l’information dans la perspective d’en estimer la pertinence.
Sujet :
Le projet de Master porte sur l’extraction automatique de relations biologiques à partir de documents. Le stage ciblera en priorité trois espèces particulières de psylles vecteurs de bactéries pathogènes d’arbres fruitiers. Ce travail s’inscrit dans le cadre plus large d’un projet de thèse, sur la qualité et la nouveauté d’informations épidémiologiques [Nédellec et al. 2024], pour laquelle des candidats étudiants sont également recherchés. Les événements représentant les interactions biologiques entre microbe, insecte, plante et leurs lieux et dates d’observation sont dénotés dans les textes scientifiques par des formulations complexes variables qui portent fréquemment sur plusieurs phrases. L’enjeu sera d’extraire ces événements (voir figure) par des méthodes d’apprentissage profond (deep learning) avec un nombre limité d’exemples produits manuellement.
Nous faisons l’hypothèse qu’exploiter la connaissance disponible dans les domaines spécialisés par des LLMs peut pallier le nombre réduit de données d’entraînement annotées. Il s’agit ici de la base de connaissance Global DataBase de l’EPPO et Psyl’list [Ouvrard, 2022]. La méthode KBPubMedBERT [Tang et al., 2023] pourra être une première solution à explorer, ainsi que des méthodes génératives [Xu et al., 2023], ou semi-supervisée [Genest et al., 2022]. La distance parfois élevée entre les arguments d’événements multiphrases dépasse les limites de modèles de langue (e.g. BERT [Devlin et al., 2019], SciBERT [Beltagy et al., 2019], BioBERT [Lee et al., 2020) et devra faire l’objet de propositions adaptées, par exemple de réseau neuronal de graphe (GNN) pour construire un graphe d’entités et capturer les interactions entre les entités à travers les phrases [Li et al. 2022].
Le rattachement aux événements extraits des sources bibliographiques à travers leur citation est un second objectif du stage. Le rattachement des entités et références a fait l’objet de travaux [Viswanathan et al. 2021]. Il s’agit ici de traiter le rattachement des références à des événements structurés.
**Programme**
La/le stagiaire réalisera un état de l’art des méthodes existantes d’extraction de relations n-aires et de citations. Il/Elle adaptera une de ces méthodes au sujet et proposera des extensions originales intégrées dans le workflow ESV. Robert Bossy (éq. Bibliome) formera et accompagnera la/le stagiaire dans l’utilisation d’AlvisNLP. Les prédictions seront évaluées par les méthodes standards du domaine (e.g. F-mesure, rappel, précision). Les entités de type citation feront l’objet d’un traitement particulier portant sur leur extraction et leur rattachement aux événements biologiques. Un article sera préparé en collaboration avec les co-encadrants en fonction des résultats obtenus.
**Ressources**
Seront mis à disposition les éléments nécessaires à la réalisation des objectifs du stage : (1) le workflow opérationnel ESV sur la plateforme AlvisNLP d’extraction d’information d’entités, de normalisation et d’extraction de relations binaires, (2) la base de connaissance Global DataBase de l’EPPO, (3) un corpus de documents non annoté d’où les informations sont à extraire, (4) le corpus EPOP (Epidemiomonitoring Of Plant) annoté manuellement. Les moyens de calcul GPU du méso-centre de l’Université Paris-Saclay seront utilisés (e.g. Lab.IA).
Profil du candidat :
– Expérience de deep learning
– Expérience en TAL et/ou utilisation de la bibliothèque HuggingFace
– Maîtrise de l’anglais ou français courant.
– Compétences techniques requises : Python et/ou Java
– Intérêt pour les applications en biologie et le travail interdisciplinaire.
Formation et compétences requises :
– Master 2 en INFORMATIQUE orienté Traitement Automatique des Langues et/ou Apprentissage automatique
Adresse d’emploi :
Equipe Bibliome, unité MaIAGE, INRAE, Jouy-en-Josas
Document attaché : 202312061614_Stage IEV.pdf