DSChem

 

Action DSChem (2022-2026)

Data Science in Chemistry

Responsables

Correspondant ComDIR : Bernd Amann

Thématiques

Chemoinformatique (exploration de l’espace chimique, prédiction des propriétés et des activités des molécules, étude et prédiction des mécanismes, prédiction de structures moléculaires), Data science (accès aux bases de données, traitement des données, intelligence artificielle, choix des modèles, des paramètres et leur validation)

Données concernées

bases de données chimiques, données chémogénomiques donnant à la fois les structures des ligands et leur réponse biologique, données de pharmacovigilance, données analytiques (spectres de masse, de RMN, données cinétiques, rendements, sélectivités, ….)

Mots clés

data science, machine learning, data-mining, structure/property/activity relationships, molecular graphics, computer vision, reaction mechanism investigations, drug discovery and design, chemoinformatics, bioinformatics

Contexte scientifique

D’une activité technique, affaire d’une communauté de spécialistes, l’Intelligence Artificielle s’est transformée en quelques années pour devenir une discipline portant des attentes importantes et dont les progrès sont largement répercutés médiatiquement. Cette mutation traduit de réelles avancées informatiques, notamment au niveau des données produites et des possibilités de les analyser.
En s’inspirant des francs succès récents de l’IA, la société place de grandes attentes dans les applications informatiques. Toutefois, ce nouveau domaine est encore mal cerné que ce soit au niveau des possibilités de traitement générées, des directions applicatives prioritaires ou de la façon d’en contrôler les usages.

D’un autre côté, au regard des 17 objectifs prioritaires posés par les Nations Unies (https://sdgs.un.org/goals), la chimie est une discipline clé pour relever les grands défis actuels, elle est au premier plan concernant la santé, l’environnement et la mutation de nos productions.
L’IA a déjà généré d’importantes applications dans ce domaine comme le montrent les dernières éditions de l”Artificial Intelligence Index Report” (https://aiindex.stanford.edu/report/). Par exemple, l’étude de l’organisation spatiale des protéines a été révolutionnée par l’application de l’apprentissage profond, notamment avec le projet Alphafold. L’impact d’Alphafold est tel que le travail a été récemment récompensé par le prix Nobel de chimie (https://www.nobelprize.org/prizes/chemistry/2024/press-release/), premier prix Nobel décerné à une avancée scientifique s’appuyant sur l’IA. Les avancées d’Alphafold ouvrent la voie de nombreuses retombées applicatives portant sur la compréhension du fonctionnement cellulaire, sur la synthèse de nouveaux médicaments ou sur de nouvelles protéines à visée industrielles.
Une autre réalisation, Synbot (DOI: 10.1126/sciadv.adj046) constitue une autre application de l’IA qui bouleverse la chimie de synthèse. Synbot s’appuie sur un système hybride pour optimiser le rendement des réactions chimiques : un niveau IA pour planifier les prochains tests, un niveau robotique pour traduire les commandes à exécuter par le robot.
Fonctionnant en boucle autonome, Synbot permet d’ores et déjà de déterminer très efficacement des conditions de réaction associées à de forts rendements réactionnels, au delà des solutions existantes.
Les applications de l’IA ont une portée concernant toute la chimie, dépassant le périmètre de la recherche ou de l’innovation. Pour reprendre les deux exemples mentionnés, Alphafold permet de trouver des médicaments et Synbot permet une production chimique plus efficace.

Une communication efficace entre informaticiens et chimistes est indispensable pour concrétiser rapidement le potentiel applicatif que représente l’IA pour la recherche en chimie.
Sur le plan économique, le dynamisme d’une communauté nationale d’échange entre les deux disciplines pourra permettre aux solutions existantes de maintenir plus facilement leur intérêt grâce à l’intégration des nouvelles technologies mais également de découvrir de nouvelles transformations, espaces chimiques ou propriétés moléculaires.
DSChem doit favoriser la naissance d’une communauté. Les échanges au sein de cette Action déboucheront sur des projets communs qui irrigueront les découvertes de notre futur proche et permettront de sensibiliser et former de nouvelles générations d’étudiants, de chercheurs et enseignants-chercheurs à cette interface centrale.

L’Action DSChem vise à favoriser les échanges entre chimistes et informaticiens.
DSChem offre un canal de diffusion interdisciplinaire, informant les chimistes des avancées et possibilités offertes par la recherche informatique, et facilitant l’identification d’informaticiens pouvant travailler sur un problème soulevé par la recherche en chimie.
Les échanges portent sur une grande variété de thèmes comme l’accès aux données (par exemple, le ‘federated learning’), la conception et l’utilisation des bases de données chimiques, le développement d’algorithmes permettant un traitement efficace des données chimiques car celles-ci peuvent être très variées (graphes 2D/3D, nuage de points, données textuelles structurées ou non et de qualité variable), choix des modèles IA, de leurs paramètres et de leur validation, la modélisation moléculaire, la conception de nouveaux matériaux assistée par ordinateur, la réalisation d’environnement informatique dédiés à la synthèse chimique, …
En s’appuyant sur des réunions et des échanges réguliers, DSChem constitue un outil de veille scientifique, ainsi qu’un vecteur de diffusion des avancées, notamment concernant les possibilités de traitement des données.

DSChem vise à permettre les échanges autour de la donnée chimique et de ses possibilités de traitement, son thème s’accorde avec le périmètre de MADICS.
La production actuelle de données engendrée par la chimie est considérable, tant au niveau des volumes concernés, qu’au niveau de la diversité des données et des problèmes d’analyse à résoudre.
En amont, la détermination de la structure d’une molécule peut résulter d’une mesure de spectroscopie de masse, modélisée comme un signal.
Une fois leur structure déterminée, une molécule est usuellement représentée par un graphe aux sommets et arêtes étiquetées, voire sous la forme d’un ensemble de plusieurs conformations possibles.
A partir de là, il est usuel de calculer une empreinte de la molécule, grande description binaire marquant la présence de groupes chimiques donnés ou de représenter sa forme par un nuage de points 3D. La représentation chimique est une composante pleinement étudiée au sein du GdR BigDataChim, partie prenante de DSChem.
A partir de cette grande variété de données, les questions posées sont nombreuses depuis l’élucidation de la structure jusqu’à la proposition de nouvelles molécules possibles, en passant par l’association de traits structuraux d’une molécule avec une propriété physicochimique ou une activité biologique voire pharmacologique (ensemble d’activités biologiques et de propriétés pharmacocinétiques). Le développement de méthodes et d’algorithmes pour traiter des systèmes complexes tel que celui de la pharmacologie nécessite de mettre en place des collaborations entre spécialistes de la chémoinformatique, de la modélisation numérique et des statistiques.
Si on ajoute à cela que les analyses ont pour objectifs de permettre aux chimistes d’optimiser leur démarche de découverte de connaissances à partir des données disponibles, DSChem relaie des besoins applicatifs concrets, souvent liés à questions informatiques actuelles.
Ainsi, DSChem est un vecteur très intéressant pour le développement d’une communauté mixte rassemblant chimistes et informaticiens.

 

Site de l’Action DSChem en cours de construction…


Évènements à venir