Exploration de méthodes d’assemblage de modèles pour la prédiction en spectroscopie proche infrarouge

When:
15/09/2024 all-day
2024-09-15T02:00:00+02:00
2024-09-15T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : UMR AGAP Institut
Durée : 36 mois
Contact : denis.cornet@cirad.fr
Date limite de publication : 2024-09-15

Contexte :
La spectroscopie proche infrarouge (NIRS) est une technique d’analyse rapide, non destructive et à faible coût, très largement utilisée dans de nombreux domaines tels que la santé, la chimie, l’agro-alimentaire et notamment l’agronomie. Elle permet de déterminer la composition chimique et les propriétés fonctionnelles d’échantillons de produits tels que les grains, fourrages, aliments, et tissus. Les données spectrales générées par NIRS sont riches en informations mais nécessitent des traitements statistiques avancés pour des prédictions
précises. Des méthodes comme la régression PLS ont été historiquement utilisées, mais les avancées en apprentissage machine (réseaux de neurones, SVM, random forest, etc.) et l’accès à d’importantes bases de données NIRS ont permis l’adoption croissante de ces méthodes d’intelligence artificielle, qui démontrent souvent de meilleures performances prédictives.
La démocratisation des spectromètres et l’augmentation croissante d’utilisateurs non spécialistes, au Nord comme au Sud, renforce la nécessité de développer une approche générique et performantes de la calibration de modèles NIRS. Le stacking, méthode qui combine les prédictions de multiples modèles, a démontré son potentiel pour exploiter les forces complémentaires de différents algorithmes et améliorer les performances de prédiction.
Cependant, les stratégies de stacking restent sous-explorées pour l’analyse des données NIRS. Dans ce contexte, le package Python Pinard (a Pipeline for Nirs Analysis ReloadeD, https://pypi.org/project/pinard/) développé par l’équipe encadrante fournit une base idéale pour l’implémentation et le test des approches de prédiction à base de stacking.

Sujet :
L’objectif principal de cette thèse est de développer et optimiser des stratégies de stacking adaptées à la prédiction à partir de spectres NIRS en s’appuyant sur le package Pinard. Pinard
fournit déjà des outils pour le traitement et l’analyse des données NIRS, y compris des modèles prédictifs individuels, mais ne propose pas actuellement de méthodologies d’assemblage de modèles. Cette recherche vise à combler cette lacune en intégrant des techniques avancées de stacking, permettant une amélioration significative des performances
prédictives.
En particulier, le travail de thèse s’articulera autour des axes suivants (qui peuvent évoluer en cours de doctorat et qui sont d’importances variés) :
• Axe 1 : étudier et concevoir des méthodes de standardisation des données pour nourrir les différentes classes de modèles de la stack ; en particulier en ce qui concerne les contraintes des modèles de machine learning ou des sources différentes. Ce travail inclura également une prise en main et une analyse poussée des jeux de données à disposition.
• Axe 2 : sélectionner, intégrer et hyperparamétrer des modèles de prédictions (existants ou nouveaux) au sein d’une stack « traditionnelle » et étudier l’impact de chacun sur la précision
globale en fonction des jeux de données et des méthodes d’assemblage (sélection aléatoire, sélection basée sur la performance, sur la diversité des algorithmes, sur la dissemblance des prédictions, etc.).
• Axe 3 : Concevoir et explorer des stratégies efficaces afin d’améliorer les stratégies de stacking de modèles en termes de précision, d’efficacité et de sobriété :
– Heuristiques issues de l’intelligence artificielle distribuée (systèmes multi-agents) ou de l’optimisation (méthodes évolutionnistes),
– Calcul temps réel de la contribution et/ou de l’explicabilité des modèles,
– Organisation et sélection dynamique des prétraitements de données,
– Hyperparamétrisation partielle temps réel,
– Etc.
L’axe 3 est au cœur de la problématique de cette thèse et devrait légitimement représenter une grande partie du travail du doctorant.
• Axe 4 : Travailler sur la diffusion des résultats obtenus que ce soit en facilitant la réutilisation de la stack ou l’accès aux outils et méthodes :
– Transfert de modèles à de nouveaux analytes / jeux de données / machines,
– Etude de l’explicabilité sous-jacente des modèles de la stack et identification des composants du signal,
– Intégration des développements dans le package Pinard.
Ce travail fournira des approches innovantes et performantes pour exploiter la richesse des données NIRS. Ainsi, il permettra d’améliorer la précision et la robustesse des analyses NIRS
pour des problématiques telles que l’identification rapide de variétés adaptées aux défis climatiques, la détection et quantification de contaminants biotiques et abiotiques dans les
récoltes, l’optimisation de la qualité et la valeur nutritive des aliments transformés, etc. contribuant de fait à des thématiques chères au CIRAD telles que la sécurité alimentaire, la
gestion durable des ressources et l’amélioration de la santé dans les pays du Sud.

Profil du candidat :
Master en informatique, bioinformatique, mathématiques appliquées, statistiques, ou sciences agronomiques avec une spécialité data science.

Formation et compétences requises :
– Développement en Python
– Data science et/ou statistiques
– Anglais (lu, écrit, parlé)
– Connaissances en R (optionnel)
– Traitement du signal (optionnel)
– Appétence pour la pluridisciplinarité

Adresse d’emploi :
Avenue Agropolis – 34398 Montpellier Cedex 5

Document attaché : 202407031350_[FR] Offre de thèse nirs 2024.pdf