Prédiction du niveau de pauvreté par Deep Learning à partir d’une séquence d’image satellites

When:
20/12/2020 – 21/12/2020 all-day
2020-12-20T01:00:00+01:00
2020-12-21T01:00:00+01:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : LIRMM (campus St Priest) dans l’équipe ICAR
Durée : 5-6 mois
Contact : Marc.Chaumont@lirmm.fr
Date limite de publication : 2020-12-20

Contexte :
Le Centre de synthèse et d’analyse de la biodiversité (CESAB) est un programme phare de la Fondation pour la Recherche sur la Biodiversité (FRB) et a pour objectif de mettre en œuvre des travaux innovants de synthèse etd’analyse des jeux de données déjà existants dans le domaine de la biodiversité. Faire progresser les connaissances, développer la culture et la collaboration, faciliter les liens entre les disciplines scientifiques et avec les acteurs, sont les principaux objectifs du CESAB, qui accueille chaque année un grand nombre de chercheurs de tous les continents. Plus d’informations sur le CESAB:http://www.fondationbiodiversite.fr/la-fondation/le-cesab/

Sujet :
Bien souvent en télédétection, on souhaite produire une cartographie géographique, c’est-à-dire produire une carte découpée en zones, où chaque zone est labellisée par une valeur. Cette valeur peut par exemple être le niveau de consommation annuel des ménages, la santé des actifs, etc. L’approche standard pour produire une cartographie consiste à extraire des caractéristiques / traits / informations pour chaque zone étudiée .Ces caractéristiques / traits / informations sont représentés par un ensemble de valeurs entières, réelles ou binaires. Elles peuvent être le matériau des bâtiments, le matériau des toits, le nombre de pièces d’une maison, le type de maison, les distances entre divers points d’infrastructure, la classification urbaine ou rurale, la température annuelle, les précipitations annuelles, etc. [Xieet al 2016 -Transfer]. Il est bien évident qu’il n’est pas aisé d’avoir accès à de telles informations qui nécessitent de faire des relevés ou des enquêtes sur le terrain. Une solution moins coûteuse pour faire la cartographie consiste à utiliser des images satellites de haute résolutio n(le principe de la télédétection consiste à faire de la mesure à distance), et d’extraire des caractéristiques qui pourront alors servir à prédire la valeur de chaque zone de la carte. Par exemple, en 2016, Xie et al. [Xie et al 2016 -Transfer] ont proposé de prédire le niveau de pauvreté (= niveau de consommation annuel des ménages) pour des zones de 1 km x 1 km. Toute la problématique de la cartographie par image satellite est qu’il est nécessaire d’avoir suffisamment d’images labellisées (images + valeurs pour chaque zone) pour pouvoir utiliser des algorithmes d’apprentissage automatique. Dans une publication plus récente, Jean et ses collaborateurs [Jean et al. 2019 -Tile2Vec], toujours dans un esprit d’approche faiblement supervisé, proposent un apprentissage par “triplet loss”. Cela correspond a apprendre avec des triplets d’imagettes (deux zones proches dans l’image satellite et une zone distante), un vecteur caractéristique discriminant la zone proche de la zone distante. Cet apprentissage est ainsi totalement non supervisé. Dans un deuxième temps, une régression est effectuée pour prédire le niveau de pauvreté à partir du vecteur des caractéristiquesde l’imagette en entrée. Les résultats de cette nouvelle proposition donnent une régression dont la corrélation est meilleure que celle obtenuepar l’approche par transfert [Xie et al 2016 -Transfer]. Il reste cependant encore une marge de progression puisque la corrélation après régression n’est que de 70%. La méthodologie est intéressante, mais comme indiqué par les auteurs [Jean et al. 2019 -Tile2Vec], elle ne prend pas assez en compte l’aspect temporel. Par ailleurs, les données sur lesquelles les expériences ont été effectuées ont été volontairement bruitées par les agences gouvernementales.

L’étudiant devra donc étudier et proposer une solution dans le cas où l’on dispose d’un ensemble d’images satellites prises sur une dizaine d’années, avec une fréquence variable, un échantillonnage à “trous”, une échelle en résolution variable et un faible nombre de données annotées. Dans un premier temps, l’étudiant devra faire un état de l’art des approches de segmentation (labellisation) d’images satellites, en veillant à étudier plus particulièrement les approches de prédiction utilisant des séquences d’images satellite. En parallèle, l’étudiant reprendra les expériences menées par l’équipede Jean et al. pour avoir une base de comparaison, mais également pour prendre en main les données dont nous disposons. En fin de stage, l’étudiant pourra comparer l’approche de Jean et al. et son approche basée sur la prédiction par séquence d’images.

Références
https://nealjean.com/

[Jean et al. 2019 -Tile2Vec] N. Jean, S. Wang, A. Samar, G. Azzari, D. Lobell, S. Ermon.Tile2Vec: Unsupervised representation learning for spatially distributed data. AAAI Conference on Artificial Intelligence (AAAI), 2019

[Jean et al. 2016 -PredictPoverty] N. Jean, M. Burke, M. Xie, W. M. Davis, D. B. Lobell, S. Ermon. Combining satellite imagery and machine learning to predict poverty Science, 353(6301), 790-794, 2016.

[Xie et al 2016 -Transfer] Transfer learning from deep features for remote sensing and poverty mapping. M. Xie, N. Jean, M. Burke, D. B. Lobell, S. Ermon AAAI Conference on Artificial Intelligence (AAAI), 2016

Profil du candidat :
Master 2 Informatique

Formation et compétences requises :
Programmation C/C++, Python, Classification, Fouille de données, connaissances en traitement d’images, connaissances de base en Deep Learning, anglais écrit scientifique.
Aucune connaissance en télédétection n’est requise

Adresse d’emploi :
LIRMM (Laboratoire d’Informatique, de Robotique et Microélectronique de Montpellier) Equipe ICAR, Bât. 5, CC 05016 -860 rue de St Priest, 34095 Montpellier cedex 5, France

Document attaché : Stage_Master_PARSEC_2020_FR.pdf