Explicabilité des modèles d’IA multimodaux

When:

15/02/2024 all-day

2024-02-15T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : EDF R&D
Durée : 6 mois
Contact : laurent.bozzi@edf.fr
Date limite de publication : 2024-02-15

Contexte :
Le département SEQUOIA (Services, Economie, Questions hUmaines, Outils innovants et IA) de la R&D, intervient en appui à de la direction Marketing de la Branche Commerce d’EDF.
Afin de mieux connaitre ses clients et maintenir leur niveau de satisfaction, EDF Commerce réalise des actions marketing à destination de ses clients particuliers, nécessitant un appui de data scientists pour le scoring, l’aide au ciblage de clients. Ce stage s’inscrit dans le cadre du projet « IA, Algos, DATA pour Commerce BtoC» de la R&D, qui intervient notamment auprès de Commerce en appui méthodologique, data et IA afin de rendre les méthodes plus robustes et explicables et améliorer la connaissance client.
Aujourd’hui les données recueillies à EDF sont de nature multiple :
• Tabulaire : données numériques, catégorielles (binaires, nominales, ordonnées) : par exemple
infos logement client…
• Textuelles : champs textuels d’enquêtes…
• Images : photos d’équipements électriques…
Des méthodes statistiques différentes fonctionnent en général indépendamment sur chaque type de données. Depuis fin 2021, la R&D travaille sur la modélisation en simultané sur ces types de données, en particulier tabulaires et textuelles. On parle alors de données multimodales : structurées (tabulaires) et non structurées (textuelles). Des travaux de recherche ont également été menés sur l’explicabilité pour ce type de modèles : comment expliquer conjointement les influences issues de chaque modalité ?
En effet, l’explicabilité est devenue incontournable lorsque l’on développe un modèle d’IA. Les exigences réglementaires (RGPD) concernant l’utilisation des données imposent une transparence et une compréhension des algorithmes (confiance, auditabilité). L’arrivée prévue en 2026 de l’AI Act vient également renforcer les besoins d’anticipation autour de l’explicabilité.
Ce champ de recherche étant en constante évolution, il s’agira d’approfondir les travaux passés en testant et imaginant de nouvelles méthodes : comment bien prendre en compte les spécificités de chaque type de données dans l’explicabilité ?
Ce sujet est un stage préparatoire à une thèse qui se lancera à l’automne 2024 dans la continuité.

Sujet :
Le stage comportera plusieurs phases :
• Montée en compétence sur l’existant :
o Les méthodologies employées : Deep Learning sur données multimodales, explicabilité
sur données structurées, explicabilité sur données textuelles
o Travaux passés sur le multimodal XAI : prise en main des codes Python (framework Deep
Learning Pytorch; packages d’explicabilité SHAP et Captum ; packages relatifs aux modèles de langue BERT).
o Jeux de données open source adaptés à la problématique : prise en main de l’existant (airbnb, kickstarter) et recherche de jeux de données complémentaires.
• Benchmark de méthodes :
o Revue de littérature des méthodes, notamment les fondements du Multimodal :
https://arxiv.org/pdf/2209.03430.pdf
o Identification de nouveaux packages d’explicabilité pouvant s’appliquer ou s’adapter aux données multimodales
o Testetévaluationdeméthodes
o Recommandationd’utilisationetd’adaptationdeméthodes
• Participation aux travaux d’alimentation et de rédaction collégiale d’un guide interne sur l’explicabilité, sous forme d’un wiki
• Conception d’une méthode hybride d’explicabilité sur données multimodales : o ConceptiondelaméthodeetcréationducodePythonassocié
o Tests sur un cas d’application
• Rédaction d’une note recensant les travaux effectués :
o Revue de littérature commentée avec les résultats de l’évaluation o Descriptiondétailléedelaméthodehybrideconçue
o Guided’utilisationdescodes

Profil du candidat :
Informatique / Statistiques

Formation et compétences requises :
La R&D propose ce stage de fin d’étude, à des étudiants d’écoles d’ingénieurs en parcours Data science ou Master 2 en statistiques (Machine Learning / Deep Learning) & IA.

Adresse d’emploi :
EDF – Recherches et Développement, 7 Bd Gaspard Monge, 91120 Palaiseau
Possibilité de télétravail occasionnel après période d’intégration.

Document attaché : 202310181338_EDF-R&D_Stage_Multimodal_XAI_2024.pdf

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Explicabilité des modèles d’IA multimodaux