Méthodes statistiques pour le traitement des données de protéomique quantitative longitudinale

When:
30/09/2017 – 01/10/2017 all-day
2017-09-30T02:00:00+02:00
2017-10-01T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : CEA de Grenoble – laboratoire EDyP
Durée : 3 ans
Contact : thomas.burger@cea.fr
Date limite de publication : 2017-09-30

Contexte :
Le candidat retenu travaillera au sein du laboratoire EDyP (Etude de la Dynamique des protéomes) de l’unité BGE (Biologie à Grande Echelle), au CEA de Grenoble. Le laboratoire EDyP est un des laboratoires leader de la protéomique par spectrométrie de masse en France, et possède par ailleurs une solide expérience dans les applications cliniques de la protéomiques, ce qui permettra au candidat de travailler en étroite collaboration avec les « producteurs de données », mais aussi avec les « utilisateurs directs » des méthodologies développées pour la recherche de biomarqueurs de suivi clinique. Par ailleurs, le pôle Data Science du laboratoire regroupe des développeurs logiciels, des bioinformaticiens, des statisticiens et des mathématiciens, fournissant par là-même un environnement stimulant pour un(e) doctorant(e) cherchant à développer ses compétences en science des données. De plus, le travail sera développé en étroite collaboration avec le Grenoble Alpes Data Institute, qui fédère les activités de nombreuses autres équipes de recherche grenobloise. Il s’agit donc finalement d’un environnement de qualité exceptionnel pour réaliser un travail doctoral.

Sujet :
La protéomique est une technologie récente, dont l’objectif est l’identification et la quantification de l’ensemble des protéines présentes dans un échantillon biologique. Par opposition aux autres disciplines « omiques » telles que la génomique ou la transcriptomique, cette technologie permet d’avoir directement accès aux « briques élémentaires du vivant », les protéines, et permet donc une caractérisation sans équivalent d’un état biologique. Dans un contexte clinique, cette caractérisation a de plus l’avantage de la spécificité : contrairement au génome, qui permet une description invariante dans toutes les cellules du corps et tout au long de la vie par le biais des gènes, le protéome (i.e. l’ensemble des protéines) est dépendant du contexte environnemental (pollution, perturbateurs endocriniens, alimentation, etc.) et physiologique (l’état d’un patient).

Malheureusement, les analyses protéomiques produisent des données dont l’exploitation statistique fiable dans un contexte clinique est une réelle difficulté, en raison des nombreuses imperfections de l’acquisition produite par une chaîne instrumentale extrêmement complexe. Les développements les plus récents permettent maintenant le traitement fiable de données issus d’analyses comparatives (binaires), mais un important travail reste nécessaire pour permettre une analyse temporelle (aussi appelée « analyse longitudinale »). Finalement, une telle méthodologie d’analyse est le dernier élément manquant pour permettre usage à grande échelle de la protéomique comme un outil fiable dans le contexte clinique du suivi au long cours de patients, pourtant absolument nécessaires pour la prise en charge des maladies chroniques (obésité, diabète, troubles cardiovasculaires…)

Le doctorant recruté participera à développer une méthode statistique permettant d’isoler, parmi les milliers de protéines qui sont identifiés et quantifiés par les analyses protéomiques, les quelques-unes les plus à même de constituer de bons « biomarqueurs de suivi » ; c’est-à-dire des protéines dont la présence et à la variation d’abondance au cours du temps est un signe clinique claire qui pourra orienter le médecin et l’aider à ajuster le traitement du patient. Pour ce faire, le doctorant assemblera différents outils préexistants ou élaborés par lui-même qui permettront de prendre en compte à la fois les contraintes des protéomiciens et cliniciens (utilisateurs potentiels de cette méthode statistique) mais aussi de la spécificité des données de protéomiques : présence de valeurs manquantes, quantification peu fiable et relative, homologies entre certaines séquences protéiques difficilement distinguable durant l’analyse, variabilité intra- et inter-patient(s), multi-factorialité de la maladie et stratification des patients, etc. Enfin, au-delà de l’aspect « statistique en grande dimension », sous-jacent au problème classique de la sélection de biomarqueurs, le candidat appréhendera aussi le problème sous l’angle du « big data », avec les aspects computationnels qui y sont classiquement associés : prétraitements, visualisation et manipulation interactives des données, efficacité du calcul en temps et en mémoire, introduction de connaissances a priori, etc.

Profil du candidat :
– Homme/femme, titulaire d’une formation complète sanctionnée par un niveau bac+5 (Master 2, école d’ingénieur, ou équivalent) dans l’une des spécialités suivantes : statistiques, traitement du signal, science des données, bioinformatique ou mathématiques appliquées.
– Compétences en programmation scientifique (R ou équivalent)
– Maîtrise courante, soit de l’anglais soit du français
– Capacité à travailler en équipe dans un contexte interdisciplinaire
– Fort intérêt pour les applications biologique ou médicales indispensables
– Aucune compétence en biologie ou en médecine n’est requise
NB : Les candidatures ne correspondant pas au cursus universitaire demandé ne seront pas considérées et ne recevront pas de réponse. Notamment, les cursus en biologie complétés par une année de spécialisation (M2) en biostatistique ou en bioinformatique ne seront pas considérés

Formation et compétences requises :
cf. profil du candidat

Adresse d’emploi :
CEA de Grenoble – Bâtiment 42b
17 avenue des Martyrs
38054 Grenoble Cedex 9
France

Document attaché :