Annonce en lien avec l’Action/le Réseau : aucun
Laboratoire/Entreprise : LIRMM et TETIS
Durée : 5-6 mois
Contact : mathieu.roche@cirad.fr, todorov@lirmm.fr
Date limite de publication : 2019-04-01
Contexte :
Les fausses nouvelles (fake news) sont devenues un problème de plus en plus important, tant du point de vue de la société que de celui de la recherche. De nombreuses approches récentes [1,2] dans diverses communautés scientifiques portent sur des problèmes tels que la vérification des faits, la détection de la pertinence ou de point de vue dans des documents par rapport à des assertions particulières.
Dans ce contexte, 3 laboratoires français et allemands (dont le LIRMM et TETIS à Montpellier) ont uni leur efforts pour collecter et publier sous la forme de graphe de connaissances les données et méta-données contenues dans un grand nombre de site de fact-checking (tels que Politifact ou Snopes). En résulte la base ClaimsKG, un graphe de connaissances contenant plus de 24K assertions annotées et liées qui facilite la création de requêtes structurées sur les assertions, leurs valeurs de vérité (True, False, etc.), leurs auteurs, dates de publication, etc.
Sujet :
Ce stage aura pour but d’exploiter cette ressource et de proposer des contributions méthodologiques fondées sur des analyses statistiques approfondies :
(i) Intégration de nouveaux descripteurs (descripteurs dits exogènes, word embeddings, etc.) pour améliorer l’identification de “fake news” dans un processus d’apprentissage automatique.
(ii) Mise en place d’un processus de clustering d’assertions dans le but d’identifier les descripteurs clés utiles pour discriminer les fake news. Notons que le clustering visera à regrouper les assertions qui portent sur le même événement ou bien sur des événements similaires/liés.
Plan de travail :
1) Etat de l’art du domaine de vérification automatique d’assertions à la base de méthodes d’apprentissage automatique.
2) Etudes de l’état de l’existant, en particulier la ressource ClaimsKG.
Proposition de méthodes d’identification des descripteurs les plus pertinents pour la détection de fake news.
3) Rédaction d’un papier scientifique à soumettre à une conférence internationale
Profil du candidat :
– Bon niveau de programmation (java / python)
– Des bases en science de données, machine learning et web sémantique
– Bon niveau en anglais
Formation et compétences requises :
Master 2 en informatique
Adresse d’emploi :
Le travail s’effectuera à TETIS et au LIRMM à Montpellier dans le cadre d’une collaboration avec l’Institut de sciences sociologiques GESIS à Cologne (Allemagne).
Le stage aura une durée de 5 à 6 mois à partir du mois de février 2019
Gratification : taux légal en vigueur