Offre en lien avec l’Action/le Réseau : – — –/– — –
Laboratoire/Entreprise : Laboratoire d’Informatique de Bourgogne (LIB)
Durée : 3 ans
Contact : eric.leclercq@u-bourgogne.fr
Date limite de publication : 2024-06-30
Contexte :
Sujet :
L’analyse des données vise à extraire de la valeur des données. Toutefois, c’est un processus complexe, qui peut faire appel à des données provenant de différentes sources, ayant différentes caractéristiques, étant stockées dans différents systèmes utilisant différents modèles, etc. De plus, le type d’analyse à effectuer peut imposer des contraintes qui limitent les algorithmes utilisables. Cette thèse s’inscrit dans le projet interdisciplinaire Beelzebot (ANR-23-CE38-0002-01), dont le but est de détecter des armées de robots sur Twitter, tout en fournissant des résultats interprétables par les analystes métier et ainsi produire des alertes lors de campagnes de désinformation. Dans ce contexte, l’utilisation des algorithmes supervisés est difficile. Les comportements des robots changent rapidement pour s’adapter aux méthodes de détection, nécessitant de produire régulièrement de nouveaux jeux d’entraînement pour les algorithmes, alors que l’on constate que les experts ont de plus en plus de mal à distinguer un robot du compte d’un humain. Les informations extraites des interactions et des activités des utilisateurs sur les réseaux sociaux sont de plus en plus utilisées pour détecter les activités des robots en tant que phénomènes de diffusion plutôt qu’en se basant uniquement sur des informations concernant un compte individuel.
Les tenseurs sont des objets mathématiques multi-dimensionnels~cite{Kolda2009}, capables d’intégrer les données provenant de différents modèles de données, tels que le modèle relationnel, les graphes ou les séries temporelles. Grâce à cette flexibilité, les tenseurs peuvent jouer le rôle de modèle pivot pour traiter des ensembles de données hétérogènes. Cela facilite leur utilisation dans de nombreux cas d’usage.
Les tenseurs sont munis d’opérateurs de décompositions tensorielles, comme Tucker ou CANDECOMP/PARAFAC, qui permettent de conduire des analyses exploratoires sur des données, notamment pour détecter des communautés ou des singularités. Ces décompositions ont l’avantage de nécessiter peu de paramètres (en général, uniquement un rang est nécessaire). Le résultat d’une décomposition peut s’utiliser de multiple façons, de manière supervisée ou non.
Parmi ces décompositions, les décompositions couplées s’exécutent sur plusieurs tenseurs ayant au moins une dimension en commun. Les tenseurs couplés présentent un fort intérêt puisqu’ils permettent de représenter conjointement des données à différents niveaux d’abstraction ou à différents points de vue – par exemple, des données concernant les profils des utilisateurs dans un tenseur, et des données concernant les publications faites par ces utilisateurs dans un autre tenseur, ou encore en ayant un tenseur représentant des connaissances vis à vis de certains hashtags des publications. Dans cette configuration, le résultat des décompositions peut donc être affiné en considérant simultanément ces différents aspects.
Cette thèse consiste à explorer les décompositions tensorielles couplées, à la fois selon leurs capacités de modélisation et leurs capacités d’analyse. Pour ce faire, en plus des jeux de données publics, plusieurs jeux de données collectés sur Twitter lors de projets précédents sont à disposition, comme par exemple les discussions autour des élections présidentielles françaises de 2022 ou le COVID, contenant de plusieurs millions à plusieurs milliards de tweets. L’environnement matériel des serveurs de stockage et de traitement est opérationnel au Data Center Régional de l’UBFC, constituant un environnement adapté à l’expérimentation des propositions sur des données massives. Les travaux de thèse couvriront l’étude des techniques d’analyse de détection de robots dans les réseaux sociaux, la proposition d’une méthode basée sur les décompositions tensorielles couplées permettant de détecter les phénomènes de diffusion, le développement d’un prototype de cette proposition accompagné de sa validation expérimentale, ainsi que l’aide à l’interprétation des résultats en collaboration avec les chercheurs en sciences du langage et de la communication participant au projet de recherche.
Profil du candidat :
Formation et compétences requises :
Adresse d’emploi :
Laboratoire d’Informatique de Bourgogne (LIB – EA 7534), Université de Bourgogne, Campus de Dijon, 9, Avenue Alain Savary, 21078 Dijon.
Document attaché : 202406141247_Beelzebot_SujetThese.pdf