Extraction et agrégation d’informations issues de données multi-sources pour la veille internationale des maladies animales infectieuses

When:
17/06/2017 – 18/06/2017 all-day
2017-06-17T02:00:00+02:00
2017-06-18T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : TETIS et ASTRE (Cirad)
Durée : 3 ans
Contact : mathieu.roche@cirad.fr
Date limite de publication : 2017-06-17

Contexte :
La veille en santé animale, et notamment la détection précoce d’émergences au niveau mondial d’agents pathogènes, est l’un des moyens permettant de prévenir ou d’anticiper l’introduction en France de dangers sanitaires. Pour cela, dans le cadre de la Veille Sanitaire Internationale (VSI) de la Plateforme nationale d’épidémiosurveillance en santé animale (PNESA : http://www.plateforme-esa.fr), les chercheurs des unités TETIS et ASTRE développent depuis 2014 une plateforme dédiée à la veille automatique allant du recueil des données textuelles (dépêches) jusqu’à la restitution synthétique des informations extraites.
Certains systèmes collectent les données à partir de sources officielles et non officielles (HealthMap, EWRS et GOARN) tandis que d’autres les collectent principalement via un réseau d’experts et d’abonnés (ProMED). Les utilisateurs des systèmes EWRS et ProMED mènent également une recherche manuelle sur le Web et d’autres systèmes pour trouver des informations sanitaires complémentaires (Barboza, 2014 ; Yu et al., 2007). Le système IBIS utilise l’approche collaborative (« crowd-sourcing »). IBIS permet également d’analyser le contenu de chaque article et de contribuer à l’évaluation de termes automatiquement extraits et annotés : les maladies, les espèces touchées, les signes cliniques ainsi que le lieu d’évènement (Lyon, Grossel et al., 2013).
Afin de trouver des informations pertinentes sur le Web, la plupart des systèmes de veille utilisent des combinaisons de termes et d’expressions en plusieurs langues. Les systèmes Argus et IBIS utilisent des termes de noms de maladies, d’agents pathogènes et de leurs variants (Nelson, Brownstein et al., 2010 ; Nelson, Yang et al., 2012). Les systèmes MediSys et HealthMap utilisent en plus, des termes qui décrivent des signes cliniques et des mots clés qui caractérisent des foyers. Les termes sont proposés par des experts (systèmes GPHIN, MediSys) (Keller, Freifeld et al., 2009 ; Mantero et al., 2011), proviennent d’un dictionnaire des pathogènes (système HealthMap) (Brownstein et al., 2008) ou d’une ontologie médicale, comme dans le projet BioCaster (Collier, Doan et al., 2008).

Travaux réalisés par les équipes des unités de Recherche ASTRE & TETIS :

Le recueil des dépêches issues des médias électroniques s’appuie sur des requêtes à partir de mots-clés de maladies, d’hôtes et de signes cliniques pour collecter des articles de Google News. Ces mots-clés ont été définis par des experts (méthode Delphi) et/ou par des approches de fouille de textes. De nouvelles pondérations selon les sources de données ont été proposées (Arsevska et al., 2016). Les dépêches collectées sur la base des mots-clés sélectionnés par les experts sont prétraitées et normalisées avant d’être stockées dans une base de données. L’extraction d’information dans les dépêches collectées identifie les éléments clés (noms de maladies, lieux, dates, nombres et espèces d’animaux touchées). Elle repose sur des dictionnaires dédiés et des règles préalablement construites par un processus de fouille de données (extraction de motifs séquentiels et méthodes d’apprentissage automatique). Les résultats sur un corpus de 352 dépêches en anglais montrent une identification pertinente (accuracy) des informations spatiales d’environ 80% et de plus de 85% pour les autres types d’informations. Un des verrous scientifiques est l’ambigüité des entités spatiales candidates. En effet, une localisation mentionnée dans un texte peut faire référence à plusieurs coordonnées spatiales (par exemple, le toponyme Saint-Louis peut être associé au Sénégal, la Réunion et aux Etats-Unis). Lever automatiquement de telles ambigüités est donc crucial pour consolider le système actuel.

Sujet :
Outre les améliorations méthodologiques à mettre en œuvre (désambigüisation des entités spatiales, traitement de l’aspect multilingue dans la chaîne complète, classification automatique), ce projet de thèse se concentrera sur la problématique de l’identification, la combinaison et la qualification des informations et indicateurs (en particulier les signaux faibles) issus des données multi-sources (dépêches officielles, textes libres, etc.) pour l’identification de l’émergence de maladies. Ce travail consistera à construire un modèle général prenant en compte les éléments de différentes sources afin d’améliorer les prédictions.
La première étape consiste à identifier les informations issues de données non structurées multilingues (dépêches, articles scientifiques, etc.) et de qualifier ces informations extraites (« confiance » à établir sur la base de la qualité des données, des sources et des approches automatiques utilisées). Une attention particulière sera portée à l’identification de signaux faibles syndromiques (par exemple, baisse de la production laitière). La seconde étape consistera à combiner ces informations intégrées à celles issues des organismes officiels (par exemple OIE) afin de proposer une méthode générique, robuste et complète. Les approches à proposer, implanter et expérimenter durant cette thèse pourront consister à concevoir des méthodes pour (i) agréger des modèles statistiques (modèles épidémiologiques construits à partir de données issues de différentes sources et/ou obtenues par différentes approches) ; (ii) intégrer des pondérations spécifiques, en particulier pour les informations spatio-temporelles, selon leur provenance pour construire un modèle générique.
Les contributions scientifiques seront intégrées à la plateforme PADI-Web (Platform for Automated Extraction of Animal Disease Information from the Web) développée dans le cadre de la collaboration pluridisciplinaire TETIS-ASTRE avec des applications étudiées sur 5 maladies (peste porcine africaine, l’influenza aviaire, la fièvre catarrhale ovine, la fièvre aphteuse et la maladie de Schmallenberg).

Profil du candidat :
Le candidat retenu devra être de formation initiale en informatique, en biostatistique ou en épidémiologie mais avec des compétences solides dans les sciences informatiques.

Formation et compétences requises :
Le candidat retenu devra être de formation initiale en informatique (fouille de données et/ou fouille de textes), en biostatistique ou en épidémiologie mais avec des compétences solides dans les sciences informatiques.

Adresse d’emploi :
Cirad,
Campus international de Baillarguet
Montpellier, France

Document attaché : these_ASTRE_TETIS.pdf