Lac de données et référentiels de métadonnées pour élaborer des indicateurs de développement durable de la ville à l’aide de l’open Big data. Application aux pratiques sportives en ville

When:
25/05/2022 – 26/05/2022 all-day
2022-05-25T02:00:00+02:00
2022-05-26T02:00:00+02:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : IGN/DVRC/CNAM
Durée : 36 mois
Contact : nicolas.travers@devinci.fr
Date limite de publication : 2022-05-25

Contexte :
La disponibilité croissante de données couvrant des aspects variés de notre réalité est une opportunité pour mieux observer et comprendre cette réalité dans sa complexité en exploitant et croisant ces données. Des approches internationales se penchent alors sur la définition d’indicateurs suffisamment comparables dans l’espace et dans le temps, à l’échelle des pays ou des villes, pour évaluer et comparer des situations. Un indicateur des ODD plus précis à considérer pour élaborer et valider notre proposition est l’indicateur ODD11.7 de l’ODD11 ; à savoir l’accès pour tous à des espaces publics sûrs, tels que les espaces verts, les espaces pour les pratiques sportives, etc. En particulier, un domaine qui nous intéresse ici est celui de la pratique sportive dans la ville durable et l’impact de l’organisation de (méga-) évènements sur ces villes et sur les pratiques sportives.
Un évènement sportif est un phénomène spatio-temporel qui affecte structurellement, économiquement et socialement un territoire (le lieu accueillant cet évènement), et générant ainsi un héritage (Harada, 2005 ; Preuss, 2019). L’étude de l’impact des évènements sportifs sur les territoires et sur les pratiques sportives, en comparant des situations par exemple avant et après un (méga-) évènement, ou encore entre deux villes différentes, nécessite l’exploitation de données massives connues par leur volume, variété et vélocité. Il est également indispensable de pouvoir les croiser au-delà des domaines couverts, et de maîtriser suffisamment les biais possibles de comparaison. Cela peut s’avérer particulièrement complexe quand les données sont hétérogènes, de volume, de vélocité et de variété qui peuvent surpasser les capacités des systèmes traditionnels de stockage et de traitement des données. Par exemple, la région Île-de-France possède près de 2,4 millions de licenciés, 19 100 clubs et plus de 101 000 emplois dans le domaine sportif et plus de 7 millions de Franciliennes et Franciliens pratiquent une activité physique et sportive de manière régulière, sans compter les infrastructures et les équipements des pratiques sportives (Gautier et al., 2017).
Diverses solutions informatiques sont avancées dans la littérature pour améliorer le croisement de données hétérogènes et mettre en place des SI plus ouverts, comme les lacs sémantiques. En géomatique, des référentiels de référencement direct ou indirect sont spécifiés et produits pour permettre que la caractéristique de localisation de sources diverses soit employée pour les croiser. Des modèles de métadonnées sont enfin proposés pour rendre compte de sources d’incertitudes et de biais.

Sujet :
Ces recherches visent à faciliter l’étude comparée de phénomènes localisés grâce à l’open data et à des solutions avancées d’intermédiation, que ce soit pour étudier un même espace à deux dates (avant et après un évènement) ou pour étudier deux espaces (deux villes différentes). Plus précisément, nous ne visons pas la production automatique d’un diagnostic, mais plutôt d’accroître l’exploitabilité croisée des données ainsi que l’accès aux métadonnées nécessaires à l’adoption d’une perspective critique sur les résultats.
Le sujet de la thèse porte plus précisément sur la structuration de données et de métadonnées en vue de permettre des analyses critiques et comparées relatives à l’impact d’évènements et mégaévènements sur les pratiques sportives en ville. Ce sujet prend tout son intérêt pour les collectivités territoriales, pour des porteurs de projets numériques autour des pratiques sportives et pour les sponsors de grands évènements tels que les JO’2024 et d’autres grands évènements sportifs internationaux (GESI), tels que Roland Garros, et de Grands Évènements Sportifs Nationaux (GESN), tels que la Parisienne.
Le verrou principal est l’absence de cadre unificateur pour mobiliser des données pourvues d’hétérogénéités sémantiques. Celui-ci s’intéresse donc à réconcilier cette hétérogénéité, mais également à faciliter la manipulation et l’analyse de données avec une forte connectivité.
L’approche se positionne dans le domaine de la modélisation sémantique (extraction et transformation de schémas pour des bases de données graphes) et de la qualité en géomatique (description explicite des informations utiles à l’interprétation des données et à la détection de biais possibles).
Deux cas d’étude plus précis seront considérés pour élaborer et valider la proposition :
– La comparaison des parcours sportifs en ville, à vélo ou à pied, avant et après un mégaévènement comme les JO à l’aide d’open data : quels référentiels de données et métadonnées pour permettre le croisement et la comparaison ? Pour ce qui est du référencement spatial, la thèse étudiera particulièrement les référentiels indirects adoptés par les communautés, c’est-à-dire la description d’une localisation dans une donnée par une référence vers un objet pourvu de coordonnées géographiques (ISO, 2003 ; Hill and Zheng, 1999 ; Chen et al., 2018). Pour ce qui est de la comparaison avant-après, une question concerne la valorisation durable d’un patrimoine, par exemple la promotion de lieux importants de l’histoire du sport cycliste lors de JO, comme l’INSEP ou le Vélodrome Jacques Anquetil, nouvelle dénomination de l’antique Cipale, ou encore le bâtiment où l’union cycliste internationale a été créée le 14 avril 1900, devrait permettre que ce patrimoine structure davantage de parcours après les JO qu’avant, soit en matière de tronçons parcourus ou de pauses. On étudiera dans cette thèse, a priori, quelles conditions de disponibilité de référentiels et de solutions de croisement de données permettront de conduire ces analyses a posteriori.
– La comparaison des parcours sportifs en ville, à vélo ou à pied, entre deux villes en se fondant sur des données produites par différentes administrations et participants et pourvues de biais différents.

Profil du candidat :
● Un CV,
● Une lettre de motivation adaptée au sujet proposé,
● Les relevés de notes des dernières années d’étude,
● L’avis du directeur de master (ou de la personne responsable du diplôme donnant l’équivalence du master), le cas échéant des lettres de recommandation.

Formation et compétences requises :
Le candidat doit répondre aux exigences suivantes :
● Possède de solides compétences en informatique, en science des données ou en mathématiques (Master 2 ou équivalent en Informatique ou en Sciences de l’Information Géographique),
● Possède de bonnes connaissances en modélisation des systèmes d’information,
● À un intérêt marqué pour la recherche en science des données et les applications réelles de l’analyse avec un goût pour la pluridisciplinarité orientée vers les sciences de la ville,
● Possède de solides compétences en développement de logiciels pour pouvoir réaliser des idées de recherche en matière de prototypes de logiciel,
● Possède d’excellentes compétences en communication en anglais.

Adresse d’emploi :
50% ALDV (Paris la défense)
50% IGN (Marne la vallée)

Document attaché : 202205091006_Sujet-de-these_IGN-CNAM-DVRC_2022-2025Apublier032022.pdf