Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : LaBRI, Université de Bordeaux
Durée : 3 ans
Contact : thebault@labri.fr
Date limite de publication : 2024-06-03
Contexte :
Ce projet de thèse interdisciplinaire vise à proposer de nouvelles approches informatiques pour analyser et améliorer les connaissances actuelles sur les cancers digestifs, maladies souvent diagnostiquées tardivement et aux solutions thérapeutiques limitées. Une stratification efficace des patients nécessite la compréhension la plus exhaustive possible des mécanismes biologiques impliquant des données biologiques hétérogènes (génomique, transcriptomique, protéomique, communication intercellulaire, épigénomique …), étroitement interconnectées de façon hiérarchique, et des connaissances provenant de bases de données spécialisées. La modélisation et intégration de ces données hautement complémentaires et à forte combinatoire dans un système complexe est cruciale pour approcher la réalité biologique et améliorer la précision des connaissances sur les mécanismes mis en jeu.
Dans ce contexte, les objectifs de ce projets sont de (1) modéliser les données biologiques à partir d’un multiplex (graphe multi-couches) hétérogène mixte avec le double avantage de représenter par niveau chaque type de données biologiques avec leurs interactions tout en prenant en compte les relations entre chaque niveau en fonction des différentes classes de pathologies, (2) proposer de nouvelles méthodes d’identification des voies de signalisation dérégulées basées par exemple sur la combinaison d’algorithmes de propagation de l’information et de détection de communautés dans chaque couche et entre elles afin d’utiliser au mieux toutes les topologies spécifiques à chaque type de données tout en permettant de les relier et (3) définir et implémenter des approches de visualisation pour faciliter l’interprétation interactive des résultats en plaçant le/la biologiste ou bioinformaticien·ne au centre du processus d’analyse des données. Ces développements informatiques seront appliqués à des données hétérogènes (exome, protéomique, transcriptomique..) produites par le BRIC à partir d’une cohorte de patients atteints de cancers digestifs (pancréas, foie et rectum).
Sujet :
Un des grands défis dans le domaine de la santé numérique est d’accompagner l’exploitation de grands jeux de données et de connaissances hétérogènes pour le développement de la médecine de précision. Cette médecine, dite personnalisée, permet notamment d’identifier les sous-groupes de patients présentant des caractéristiques biologiques ou génétiques similaires en tenant compte des caractéristiques individuelles des patients, ce qui facilite le développement de traitements plus ciblés et efficaces. Elle repose sur l’acquisition de données multi-omiques (génomique, transcriptomique…) couplées aux informations cliniques et biologiques des patients, générant ainsi un important volume et une grande diversité de données.
Face à cette grande hétérogénéité de données biologiques portant des informations différentes et complémentaires, de nombreux outils d’intégration de données multi-omiques ont été proposés ces dernières années. Cinq grandes familles de méthodes sont proposées: l’intégration précoce, mixte, intermédiaire, tardive et hiérarchique [1]. Nous nous intéressons particulièrement aux méthodes d’intégration mixte (transformation indépendante de chaque jeu de données en une représentation simple) et hiérarchique (inclusion des connaissances préalables des relations régulatoires entre les différents types de données). En effet, chaque type de données peut être représenté naturellement sous forme de graphes ce qui permet de simplifier et débruiter ces données à grandes dimensions, ensuite l’utilisation de multiplex permet de connecter ces graphes tout en gardant l’aspect hiérarchique des relations entre les différentes molécules suivant le dogme central de la biologie moléculaire. La grande flexibilité et la variété des graphes nous permettent aussi de pouvoir modéliser et rendre accessible l’abondance de connaissances bio-médicales présentent dans les nombreuses bases de données. HetioNet [2], par exemple, propose un graphe de connaissance multiplex hétérogène (11 types de nœuds et 24 types d’arêtes) récapitulant 29 bases de données. Plus récemment, BioCypher [3] propose une architecture modulaire, réutilisable et extensible permettant la construction et l’exploration de méta-graphes en utilisant des graphes de connaissance pré-construits à partir de chaque base de données (57 bases de données et 11 ontologies) ainsi que l’ajout de nouveaux modules.
A notre connaissance, il n’existe pas de méthode permettant de combiner les informations provenant des expériences omiques, chacune d’elle avec leurs propres propriétés et les relations non aléatoires entre elle et la mine d’information provenant des graphes de connaissance qui permettrait d’interpréter les perturbations observées dans les échantillons. De plus, le parcours de ces multiplex hétérogènes afin d’identifier les informations biologiques importantes provenant de chaque couche (topologie spécifique aux type de données) et permettant une combinaison cohérente entre elles (hiérarchie et expertise biologique) est une question qui reste difficile. De nombreuses approches de type marche aléatoire [4] ou marche aléatoire dirigée [5] ont été proposées, nous pensons cependant que le parcours des données issues des expériences pondèrent précisément les liens entre les molécules et devraient être utilisées dans cette tâche.
L’intégration de données reste donc une problématique majeure et l’utilisation de multiplex hétérogènes pour cette tâche semble une alternative naturelle, adaptative et tendance aux méthodes classiques de machine learning et d’apprentissage profond.
Nous allons nous intéresser en particulier aux cancers digestifs comme cas d’étude. Les cancers digestifs demeurent des pathologies de mauvais pronostic dont le diagnostic est souvent réalisé à un stade avancé et pour lequel les moyens thérapeutiques sont restreints.
Dans le but de développer des thérapies efficaces, il est nécessaire de mieux comprendre la pathogenèse de ces cancers et d’identifier des sous-groupes de patients. En effet, la stratification des patients en catégories plus homogènes dans leurs étiologies, le profil moléculaire de leur cancer et leur devenir permettront ensuite des prises en charge spécifiques diminuant le risque de complications tels que la résistance au traitement et de mortalité précoce.
1. Picard M, Scott-Boyer M-P, Bodein A, Périn O, Droit A. Integration strategies of multi-omics data for machine learning analysis. Computational and Structural Biotechnology Journal. 2021;19:3735–46.
2. Himmelstein DS, Baranzini SE. Heterogeneous Network Edge Prediction: A Data Integration Approach to Prioritize Disease-Associated Genes. Tang H, editor. PLoS Comput Biol. 2015;11:e1004259.
3. Lobentanzer S, Aloy P, Baumbach J, Bohar B, Carey VJ, Charoentong P, et al. Democratizing knowledge representation with BioCypher. Nat Biotechnol. 2023;41:1056–9.
4. Pio-Lopez L, Valdeolivas A, Tichit L, Remy É, Baudot A. MultiVERSE: a multiplex and multiplex-heterogeneous network embedding approach. Sci Rep. 2021;11:8794.
5. Liu W, Li C, Xu Y, Yang H, Yao Q, Han J, et al. Topologically inferring risk-active pathways toward precise cancer classification by directed random walk. Bioinformatics. 2013;29:2169–77.
6. Feng S, Heath E, Jefferson B, Joslyn C, Kvinge H, Mitchell HD, et al. Hypergraph models of biological networks to identify genes critical to pathogenic viral response. BMC Bioinformatics. 2021;22:287.
7. Wilkinson MD, Dumontier M, Aalbersberg IjJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data. 2016;3:160018.
8. Lin D, Crabtree J, Dillo I, Downs RR, Edmunds R, Giaretta D, et al. The TRUST Principles for digital repositories. Sci Data. 2020;7:144.
Profil du candidat :
Etudiant(e) titulaire d’un master 2 de bioinformatique ou assimilé (ou informatique mais avec une forte inclination pour la biologie), disposant des compétences suivantes :
Connaissances en bioinformatique, (bio)statistique et biologie Maîtrise de l’environnement linux/unix
Maîtrise du langage R et d’un langage de programmation (python, C, …) Motivation pour évoluer dans un environnement pluridisciplinaire Rigueur et esprit de synthèse, ainsi que capacité à travailler en équipe.
Formation et compétences requises :
Adresse d’emploi :
LaBRI – Laboratoire Bordelais de Recherche en Informatique
Université de Bordeaux
351, cours de la Libération F-33405 Talence cedex.