Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : UMR TETIS / UMR STL
Durée : 6 mois
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2025-01-31
Contexte :
Avec la liberté d’expression et la pluralité d’opinions, la société moderne voit apparaître de nombreuses controverses, comme par exemple les questions liées à la vaccination, au végétarianisme ou au réchauffement climatique. De manière générale, on considère qu’une controverse apparaît lorsqu’il existe des points de vue, des croyances ou des avis différents, ce qui peut se transformer en désaccord plus ou moins manifeste entre les acteurs. Une situation de controverse se manifeste typiquement par l’emploi de l’argumentation et une charge émotive des énoncés. Leur étude permet de comprendre les enjeux et les positions qui peuvent exister autour d’une question donnée.
Dans le cadre du projet CNRS MITI STAY (Savoirs Techniques pour l’Auto-suffisance, sur Youtube), nous nous intéressons aux controverses en lien avec l’agriculture alternative. Les données de travail proviennent essentiellement des vidéos Youtube transcrites et les commentaires correspondants. Il est rare que les vidéos comportent des controverses. En revanche, les commentaires, qui se construisent en interaction entre les intervenants, peuvent contenir des opinions ou réactions controversées. Pour s’attaquer à un tel problème, nous pouvons nous intéresser aux structures des discussions et/ou au contenu des commentaires.
Sujet :
Ce stage s’intéressera plus spécifiquement à analyser les contenus textuels source de controverse. Pour mener de telles études, les données à exploiter sont souvent rares et leur collecte et annotation sont longues et complexes. Pour aider la constitution d’un corpus conséquent contenant des commentaires controversés en volume nécessaire pour être ensuite traité par des modèles de langue, il est souvent proposé d’augmenter ces données avec des méthodes spécifiques. Cette tâche constitue le coeur de ce stage. Plus particulièrement, il s’agit de travailler avec un premier ensemble de commentaires déjà annotés et d’augmenter de manière automatique ces données.
De manière concrète, le travail de stage se déroulera en trois phases successives :
– Dans un premier temps, le ou la stagiaire réalisera un état de l’art sur les approches à mobiliser en lien avec le travail de stage, à savoir l’identification automatique des controverses sur la base du contenu textuel et l’augmentation de données textuelles.
– Dans un deuxième temps, le travail proposé consistera à identifier les controverses en lien avec les thématiques sur lesquelles elles portent. Pour cela, le ou la stagiaire utilisera (1) les données en français annotées du projet STAY, (2) un lexique thématique produit par les chercheuses et chercheurs du projet.
– Enfin, des méthodes d’augmentation de données seront proposées, mises en place et évaluées sur la base des analyses réalisées précédemment.
Profil du candidat :
Profil des candidat.e.s : TAL, science des données avec une sensibilité au travail avec des données textuelles dans un cadre pluridisciplinaire
Candidature :
Envoyer un CV + relevés de notes des deux dernières années aux encadrant.e.s
Date limite : 04 décembre 2024
Formation et compétences requises :
Adresse d’emploi :
Encadrant.e.s :
– Mathieu Roche (mathieu.roche@cirad.fr) UMR TETIS, CIRAD, Montpellier
– Natalia Grabar (natalia.grabar@univ-lille.fr) UMR STL, CNRS, Lille
Lieu du stage : Montpellier ou Lille