Stage M2 (poursuite en thèse possible) – Machine Learning / Optimisation / Santé – Equipe ORKAD – Lille

When:
28/02/2025 all-day
2025-02-28T01:00:00+01:00
2025-02-28T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : Equipe ORKAD / Laboratoire CRIStAL Lille
Durée : 6 mois
Contact : julie.jacques@univ-lille.fr
Date limite de publication : 2025-02-28

Contexte :
ORKAD est une équipe de recherche du groupe thématique OPTIMA du laboratoire CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) (UMR CNRS 9189) de l’Université de Lille. L’objectif principal de l’équipe ORKAD est d’exploiter simultanément l’optimisation combinatoire et l’extraction de connaissances pour résoudre des problèmes d’optimisation. Les métaheuristiques ont souvent été utilisées avec succès pour résoudre différentes tâches de machine learning [DhaenensJourdan2022]. En particulier, l’algorithme MOCA-I [Jacques2013-a], permet de classifier des données hétérogènes et mal réparties par méthode d’optimisation, sur des données médicales [Jacques2020]. L’équipe ORKAD a des partenariats avec le CHU de Lille ; notamment dans le cadre du projet européen PATHACOV pour la détection du cancer du poumon à partir de la concentration en composés organiques volatils dans l’air expiré [Hulo2023]. Dans ce stage, nous nous intéressons à l’extension de ces travaux aux données du projet ALCOVE, suite du projet PATHACOV, où l’objectif est de distinguer différentes classes de sujets: sain / malade (avec le stade : I, II, III, IV) ; opérable / non opérable.

Sujet :
Dans le problème de classification multi-label, un enregistrement du jeu de données peut être associé à plusieurs labels : par exemple « cancer du poumon » et « opérable ». Des approches à base de métaheuristiques ont été proposées par le passé pour gérer ce problème, comme par exemple les colonies de fourmis [Otero2010]. La classification multi-label est souvent associée à une répartition déséquilibrée des différents labels à prédire [Tarekegn2021] et une des spécificités de l’algorithme MOCA-I est justement sa capacité à gérer ce déséquilibre [Jacques2013-a]. Dans MOCA-I, la modélisation est adaptée pour la classification binaire partielle (représentation de la solution, opérateurs d’initialisation et de voisinage,…). L’objectif de ce stage est de proposer une nouvelle représentation et opérateurs adaptés au problème de classification multi-label. Des méthodes de configuration automatique d’algorithmes comme irace [López-Ibáñez2016] seront utilisées pour identifier si les nouveaux opérateurs et stratégies proposés sont efficaces sur les benchmarks sélectionnés.

Profil du candidat :
Programmation Objet (Python ou C++) ; Connaissances en machine learning
Des connaissances en C++ et recherche opérationnelle, optimisation combinatoire seraient un plus.

Formation et compétences requises :
M2 en informatique

Adresse d’emploi :
Lieu : Laboratoire CRISTAL, Equipe ORKAD (Université de Lille, France)

Document attaché : 202411141558_Sujet_stage_M2.pdf