Offre en lien avec l’Action/le Réseau : – — –/Doctorants
Laboratoire/Entreprise : GREYC ou LITIS
Durée : 6 mois
Contact : luc.brun@ensicaen.fr
Date limite de publication : 2024-05-05
Contexte :
L’apprentissage profond a révolutionné de nombreux domaines tels que l’analyse d’images ou le traitement automatique des langues. Pourtant, l’incapacité de ces systèmes à justifier leurs décisions est très vite apparue comme une limite forte.
Ce problème est d’autant plus saillant dans la prédiction de l’action thérapeutique d’une molécule où il n’est pas viable d’engager des moyens et du temps pour la synthèse / le test de molécules sur la simple base d’une prédiction par un réseau. Plus précisément, la capacité d’un réseau (en l’occurence sur graphe) à expliquer sa décision permet:
* de valider les prédictions avant d’engager des efforts et des moyens sur les synthèses d’une série moléculaire
* d’obtenir une intuition sur les propriétés physico-chimiques clés que doit posséder une molécule pour avoir une action biologique ciblée.
Le second point est également très intéressant car il ouvre des perspectives vers la conception de nouvelles molécules thérapeutiques.
Sujet :
Notre étude commencera par une étude des réseaux sur graphes (GNN) permettant de prédire les propriétés de nos jeu de données. L’étude sera ciblée sur la prédiction des interactions protéines/ligands à partir de plusieurs représentations de graphes moléculaires.
Si cette étape est validée, nous aborderons une comparaison des méthodes de la littérature permettant d’expliquer les résultats de ces GNNs. Les résultats produits (en termes d’explication) seront évalués en utilisant plusieurs critères tels que l’accuracy, l’aire sous la courbe, la fidélité, la parcimonie,…. Nous espérons identifier à partir de cette étude des sous structures pertinentes pour les propriétés à prédire.
Nous essaierons, dans un troisième temps, d’appliquer ces méthodes sur les graphes moléculaires squelettiques. Il s’agira de comparer sous l’angle de l’explicabilité les descriptions moléculaires “brutes” et celles produites en intégrant une expertise du domaine via le graphe pharmacophorique.
Ce sujet peut être considéré comme un formation pour une thèse de doctorat qui pourrait commencer à l’issue du stage.
Profil du candidat :
Nous recherchons des candidats de niveau Bac+5 avec de bonnes bases en apprentissage machine. Une capacité à travailler en équipe combinée à une curriosité pour les problèmes scientifiques et une certaine autonomies seraient des plus.
Formation et compétences requises :
Le candidat doit être inscrit en dernière année d’un Master ou d’un diplôme d’ingénieur dans un domaine lié à l’informatique ou aux mathématiques appliquées, et posséder de solides compétences en programmation.
Une expérience en informatique pour la Science des Données, apprentissage profond, notamment sur graphes ainsi que pytorch sera un plus.
Adresse d’emploi :
Le stage pourra se dérouler à Caen (au laboratoire GREYC) ou à Rouen (laboratoire LITIS).
Document attaché : 202401231248_theseCODAG.pdf