Échantillonnage de motifs sur des donnéeshétérogènes

When:
25/02/2025 all-day
2025-02-25T01:00:00+01:00
2025-02-25T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Laboratoire GREYC Université de Caen
Durée : 6 mois
Contact : abdelkader.ouali@unicaen.fr
Date limite de publication : 2025-02-25

Contexte :
Ce stage de master s’inscrit dans le cadre du projet FIDD (Facilitated Exploration :Interactive Constraint-Driven Data Mining) financé par l’ANR (Agence Nationale de laRecherche), projet qui démarrera en février 2025. L’objectif principal du projet FIDD est d’améliorer l’expérience de l’utilisateur dans la boucle interactive de fouille de données en exploitant les contraintes pour capturer ses intérêts et guider efficacementle processus de fouille de données. Ce projet regroupe 6 organismes de recherche nationaux : LISN [UMR 5506 – Université de Paris-Saclay], LIRMM [UMR 5506 – Université ofMontpellier], LS2N [IMT Atlantique Nantes], GREYC [UMR 6072 – Université de Caen],LIFO [EA 4022 – Université d’Orléans], CRIL [UMR 8188 – Université of Artois]. En collaboration avec l’entreprise PME Deeplink-Medical, une application phare est considéréeafin d’améliorer la prise en charge des patients par des médecins radiologues selon leursinteractions.

Sujet :
La fouille de motifs [1] consiste à extraire, à partir d’un ensemble de données, des régu-larités ou des modèles récurrents qui peuvent être utilisés pour générer des connaissancessignificatives. Cependant, afin de réduire la durée de la procédure et donner davantage de contrôle à l’utilisateur, la fin des années 2000/le début des années 2010 voyait le déve-loppement des méthodes defouille interactive[7] : à chaque itération, un petit ensemblede motifs est proposé à l’utilisateur, l’utilisateur examine ces résultats partiels, donne desretours que l’algorithme prend en compte pendant la ou les prochaines itérations. En rai-son du très grand nombre de motifs extraits, une telle approche a pourtant besoin destechniques d’échantillonnage en sortie de motifs comme celles été proposées en [4, 5, 6, 3]pour sélectionner un sous-ensemble représentatif de l’ensemble de motifs. Ces techniquespermettent de réduire la complexité en temps de calcul et de faciliter l’analyse tout en pré-servant l’essence des informations contenues dans les motifs de la base de données. Dansces techniques, le tirage de motifs est souvent réalisé proportionnellement à une mesure re-flétant un certain intérêt de l’utilisateur. Ainsi, le processus d’échantillonnage peut intégrerdes contraintes visant à influencer le tirage lui-même ou à cibler spécifiquement des motifsqui satisfont certaines propriétés définies. Plus précisément, ce problème d’échantillonnagese formule de la manière suivante [4, 2] : étant donné une base de données S, un langage demotifsL, un ensemble de contraintes C, et une mesure de qualité φ:L→R, tirer aléatoi-rement des motifs qui satisfont les contraintes de C avec une probabilité proportionnelle à leur qualité.

Profil du candidat :
Niveau master 2 (ou équivalent) en informatique (ou mathématiques appliquées) ayantun intérêt pour l’intelligence artificielle, la programmation par contraintes, et la fouille de données.

Formation et compétences requises :
Des compétences en programmation JAVA, Python et C++ ainsi qu’une bonne compréhension des algorithmes de fouille de données et de résolution de contraintes et SAT seront appréciées. La langue utilisée est le français ou l’anglais.

Adresse d’emploi :
Laboratoire GREYC, CNRS UMR 6072, Université de Caen, 14000, Caen. Avec des interactions régulières avec l’équipe Contraintes et Apprentissage au laboratoireLIFO, EA 4022 – Université d’Orléans.

Document attaché : 202410241252_FIDD___Sujet_de_Stage_M2-1.pdf