Stage M2 au CEA : Nouvelles approches par apprentissage statistique profond pour l’identification structurale de biomarqueurs en métabolomique par spectrométrie de masse

When:
30/11/2024 all-day
2024-11-30T01:00:00+01:00
2024-11-30T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : DSChem/– — –

Laboratoire/Entreprise : CEA
Durée : 6 mois
Contact : etienne.thevenot@cea.fr
Date limite de publication : 2024-11-30

Contexte :
La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet :
L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées. A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.
Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé
Références :
[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.
[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.

Profil du candidat :
Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).

Formation et compétences requises :

Adresse d’emploi :
Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.
Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :
Etienne Thévenot (etienne.thevenot@cea.fr)
Equipe sciences des données (https://odisce.github.io)
Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)
UMR Médicaments et Technologies pour la Santé (MTS)
CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

Document attaché : 202410041921_240924_stage_M2_cea_ai-ms2_EThevenot.pdf