Refactorisation dynamique des mégadonnées pour l’optimisation des données de capteurs

When:

17/07/2016 – 18/07/2016 all-day

2016-07-17T02:00:00+02:00

2016-07-18T02:00:00+02:00

Annonce en lien avec l’Action/le Réseau : aucun

Laboratoire/Entreprise : IRIT-UMR5505, Equipe SIG, Toulouse
Durée : 2016-2020
Contact : Olivier.Teste@irit.fr
Date limite de publication : 2016-07-17

Contexte :
Période : Septembre 2017 – Août 2020
Financement : sur projet, environ 1300€

Description :
Cette thèse a pour objectif d’apporter des solutions pour la modélisation et l’exploration du Big Data généré par des capteurs disséminés sur un campus, une ville… Dans le sillage des Big Data, le domaine des bases de données a connu ces dernières années l’émergence de nouveaux systèmes de stockage, de gestion de données et d’exploitation, appelés systèmes « not only SQL » (NoSQL). Leur grande flexibilité et extensibilité rendent ces systèmes pertinents pour la gestion des mégadonnées. Néanmoins, ces approches impliquent une forte dépendance entre le modèle de stockage et les traitements sur les données [CACM12]. Cette limite exige le développement de mécanismes permettant un accès optimal et indépendant quelque soit le type de requêtes effectuées.

Sujet :
La conjecture portée par cette thèse est de résoudre la dépendance des systèmes NoSQL aux traitements par une approche de refactorisation dynamique des données [ER15].

Ces systèmes ne reposent pas sur le principe de la séparation des données et des traitements, rendant la modélisation des données très dépendante des traitements associés. La structure de données conçue à la création de la base de données est très efficace pour certains traitements mais, en même temps, inefficace et parfois incompatible avec d’autres traitements néanmoins nécessaires. Ces systèmes ne permettent donc pas de supporter tout type de traitement avec la même efficacité.

La refactorisation des données consiste à restructurer les données pour les adapter à des traitements (par exemple, structures aplaties versus structures imbriquées).

Dans le contexte de cette thèse, un premier enjeu réside dans la variété des besoins d’accès et d’analyses des multiples intervenants utilisateurs des données. Ces différentes exigences nécessitent une adaptation des structures de données sous jacentes afin de maintenir un même niveau de performance. Un second enjeu concerne l’évolution de ces besoins d’accès et d’analyses. En effet, l’arrivée constante de nouvelles données issues des capteurs, l’ajout ou la suppression de capteurs modifient les possibilités d’analyses, et par conséquent les besoins des utilisateurs. Un enjeu concerne alors la capacité à faire évoluer efficacement le système en fonction de ces nouveaux besoins d’accès.

L’objectif de la thèse est de développer de nouveaux modèles, méthodes et outils permettant la refactorisation des Big Data. Nous prévoyons de développer des mécanismes inter-système NoSQL, consistant à migrer (ou dupliquer) physiquement de manière efficace système NoSQL distribué en clusters vers un autre système réputé mieux adapté aux traitements ciblés. Une autre solution à développer intra-système NoSQL consiste à réorganiser automatiquement les données au sein du même système, avec ou sens duplication, de manière matérialisée ou virtualisée, tout en garantissant la cohérence des données. Ces mécanismes devront en particulier explorer la problématique de structuration de données minimisant les coûts de traitements induits par les processus de traitements distribués « Map » / « Reduce ».

Ces résultats scientifiques devront faire l’objet d’une validation au travers de la réalisation d’un prototype logiciel servant de preuve de concept. Il devra fonctionner sur des jeux de données synthétiques et des jeux de données réels produits dans le contexte du projet NeoCampus.

Références :
[CACM12] M. Stonebraker, New opportunities for New SQL. Communications of the ACM, Vol. 55 (11), p.10-11, 2012.
[ER15] D. Sevilla Ruiz, S. Feliciano Morales, J. García Molina, Inferring Versioned Schemas from NoSQL Databases and Its Applications, 34th International Conference, ER’15, Stockholm, Sweden, October 19–22, 2015

Profil du candidat :
Etudiant diplômé de master ou ingénieur dans le domaine de l’informatique ayant des compétences en gestion de données, systèmes d’informations, et big data.

Formation et compétences requises :
Le candidat doit faire preuve de compétences dans la mise en œuvre logicielle tout en étant capable de maîtriser un cadre théorique formalisé. Les technologies Hadoop, Map/Reduce, NoSQL sont particulièrement visées. De bonnes compétences en anglais sont également un atout.

Adresse d’emploi :
IRIT
118 route de narbonne
31062 Toulouse cedex 9

Document attaché :

MaDICS

Masses de Données, Informations et Connaissances en Sciences

Big Data - Data Science

Refactorisation dynamique des mégadonnées pour l’optimisation des données de capteurs