Action BigData4Astro (2020-2024)
Big Data for Astronomy
Responsables
- André SCHAAFF, CDS, INSU
- Karine ZEITOUNI, DAVID, INS2i
- Nicolas Lumineau, LIRIS, INS2i
Thématiques
Astrophysique, Informatique
Données concernées
Données d’observation en astronomie: images, catalogues, etc. issues principalement des grandes infrastructures de recherche ou de simulations numériques.
Mots clés
Big Data, astrophysique, workflow de traitement, requêtes, analyse statistique, analyse par apprentissage et d’intelligence artificielle, exploration, visualisation, benchmark, plateforme scientifique
Contexte et positionnement scientifique
En astronomie, les besoins en traitement de données évoluent et se complexifient, au fur et à mesure que de
nouvelles technologies d’observation et d’acquisition fournissent une vision plus nette et plus profonde du ciel, et au fur et à mesure que les techniques d’échantillonnage de données, de traitement d’images et d’apprentissage offrent de nouvelles perspectives pour la compréhension des observations. C’est un véritable bouleversement que connaît le domaine depuis une quinzaine d’années et qui va en s’amplifiant. Les instruments sont devenus extrêmement précis avec des capacités d’observation extraordinaires (e.g. Vera C. Rubin Observatory(ex LSST), CDD de 3,2 Gpixels) donnant accès à des relevés détaillés de tout ou partie du ciel avec des profondeurs variables, de l’Univers tout proche à l’Univers très lointain, juste après le Big Bang. L’étude d’objets isolés laisse de plus en plus place à une approche ensembliste où le cas d’étude est remplacé par une étude statistique globale permettant de déduire des lois générales (formation des planètes) ou de tester des théories cosmologiques (gravitation à grande échelle, énergie noire, matière noire). Les algorithmes de traitement d’images intègrent plus de modalités et plus de dimensions. L’étude de corrélations entre événements célestes nécessite des opérations spécifiques sur des tables de dimensions gigantesques (plusieurs centaines de variables et plusieurs milliards d’enregistrements). De façon générale, les traitements sur ces données sont souvent réalisés par une ingénierie ad hoc, mettant en œuvre une multitude d’outils informatiques et produisant des chaînes de traitements complexes, coûteuses en maintenance et peu propices à la réutilisation et l’évolution. Ces limites sont exacerbées
par l’évolution rapide des modèles de calcul distribués (GPU, serveurs de données, MapReduce), ainsi que l’émergence de nouveaux algorithmes d’apprentissage et d’extraction de connaissances (datamining, machine learning, deep learning). Ce sont là des conditions qui peuvent constituer un frein à l’évolution des recherches en astronomie et en cosmologie.
L’objectif de cette action est de mobiliser une communauté interdisciplinaire autour de ces problèmes pour faire émerger des concepts, des modèles et des méthodes originales permettant une meilleure compréhension des traitements à réaliser sur les données astronomiques et une plus grande maîtrise des logiciels associés tant dans leur développement que dans leur maintenance et leur évolution.
L’objectif de cette action est de mobiliser une communauté interdisciplinaire autour de ces problèmes pour faire émerger des concepts, des modèles et des méthodes originales permettant une meilleure compréhension des traitements à réaliser sur les données astronomiques et une plus grande maîtrise des logiciels associés tant dans leur développement que dans leur maintenance et leur évolution.
Elle s’appuie sur une collaboration entre astrophysiciens qui génèrent et exploitent des données et des informaticiens dont l’expertise relève de la gestion de données massives et la visualisation.
L’une des recommandations de la récente prospective INSU est de se préparer au changement d’échelle du Big Data: hébergement des données dans de grands centres spécialisés, cloud publics (EOSC) et privés, code prochedes données, etc.
L’INSU prépare actuellement la création d’une Action Spécifique Numérique évoquée lors du second Symposium du GDR MaDICS. Nous avons participé récemment à l’élaboration de sa feuille de route et la possible synergie avec MaDICS y est clairement exposée.
Le morcellement des Centres de données est un risque réel de devenir à terme des utilisateurs payants
d’infrastructures de type Google ou Amazon. Il semble primordial d’encourager une mutualisation pour être à la hauteur des enjeux des grands projets (SKA, …).
L’astronomie est déjà dans l’ère du Big Data depuis longtemps mais c’est sans commune mesure avec les volumes de données que généreront les nouveaux instruments (Vera C. Rubin Observatory (DR1 (vers 2023), 18 milliards d’objets et 350 milliards de sources, SKA (Phase 1 2024, 600PB), …)). Le renforcement des collaborations avec les grandes infrastructures de calcul pour le passage des codes à l’exascale est également une recommandation.
Parmi les défis on peut également citer un défi humain pour surmonter la difficulté de recruter des doctorants sur des profils particuliers (ni complètement astro ni info).
L’intérêt de la communauté scientifique pour les défis des sciences de données et de l’intelligence artificielle ne cesse de croître. Le récent rapport «Donner un sens à L’intelligence artificielle» coordonné par Cédric Villani place ce thème comme une priorité et un enjeu national. Auparavant, l’OCDE a pointé son importance dans son rapport “Data-Driven Innovation : big data for Growth and Well-Being” paru en 2015. L’astronomie constitue un domaine d’investigation et d’application de choix pour les recherches en cours. Des articles et des plateformes consacrés au croisement de l’informatique et de l’astronomie sont pertinents et fortement appréciés par la communauté informatique.
L’objectif de cette action est de fédérer la communauté et d’encourager les collaborations dans le but de valorisations scientifiques sous différentes formes.L’objectif de cette action est de fédérer la communauté et d’encourager les collaborations dans le but de valorisations scientifiques sous différentes formes.
Les possibilités d’échanges avec les autres GDRs sont significatives et on peut citer IA, IG-RV, IM, MAGIS, RSD et Sécurité.
Enfin, au niveau européen le programme COST BIG-SKY-EARTH a pu montré l’importance stratégique de
l’interdisciplinarité dans ce domaine, concrétisé notamment par la publication d’un ouvrage intitulé “Knowledge Discovery in Big Data from Astronomy and Earth Observation”. Le cadre de l’action pourrait renforcer les relations déjà existantes entre les porteurs de l’action et la communauté constituée autour de ce programme ( https://bigskyearth.eu ).