EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES ET DE SÉRIES TEMPORELLES CONCURRENTES

When:
31/10/2020 – 01/11/2020 all-day
2020-10-31T01:00:00+01:00
2020-11-01T01:00:00+01:00

Offre en lien avec l’Action/le Réseau : – — –/– — –

Laboratoire/Entreprise : LabSTICC & IMT Atlantique
Durée : 15-18 mois
Contact : yannis.haralambous@imt-atlantique.fr
Date limite de publication : 2020-10-31

Contexte :
La mise en concurrence de données textuelles et de séries temporelles est une branche de la fouille de textes qui a émergé il y a une vingtaine d’années dans le cadre de la bourse, où l’on s’est posé la question : «peut-on prédire l’évolution du marché à partir d’une fouille textuelle de la presse spécialisée ?».

Ce projet vise à mettre en œuvre des techniques similaires dans un autre contexte : celui de l’amélioration des performances énergétiques et du monitoring. Le corpus textuel envisagé est celui des rapports quotidiens des techniciens surveillant des chaudières d’un site industriel. Les séries temporelles concurrentes sont celles de performance énergétique des chaudières, données produites à partir d’une multitude de capteurs.

Les rapports des techniciens sont des documents semi-structurés dans un langage naturel faiblement contrôlé. Une attention particulière est portée à la détection d’anomalies : celles-ci doivent être extraites à partir des données saisies (rapports structurés en langage contrôlé, mais aussi fragments en langage naturel) et corrélées avec des valeurs anormales des séries temporelles.

Sujet :
Il s’agira d’abord de faire une classification non supervisée des états des séries temporelles en corrélation avec les informations extraites des énoncés de langage contrôlé afin d’obtenir des indicateurs des différents niveaux de normalité/anomalie.

Ensuite, après concertation avec le fournisseur des données, on se concentrera sur certaines classes et on établira un modèle prédictif basé en même temps sur les données textuelles et les données issues des capteurs.

Parmi les pistes de recherche prometteuses on peut envisager une méthode générale pour corréler langage contrôlé et séries temporelles ainsi qu’une rétro-action : l’optimisation du langage contrôlé vis-à-vis du modèle prédictif. Le passage à un langage fortement contrôlé (avec validation morphosyntaxique et sémantique basée sur une ontologie ad hoc) permettrait alors de consolider l’optimisation énergétique et la prédiction d’anomalies.

PARTENAIRES ET ACTEURS :
Le projet LEARN-IA réunit trois acteurs : deux entreprises rennaises (Energiency et Script&Go) et une grande école d’ingénieurs (IMT Atlantique), il est financé par le Fonds européen de développement régional (FEDER) et la Région Bretagne-Atlantique. Il a été labellisé par le Pôle Images & Réseaux et le Pôle Mer.

Profil du candidat :
PRÉREQUIS : thèse de doctorat en fouille de texte ou en modélisation de séries temporelles (avec motivation pour approfondir le domaine du traitement automatique de la langue).

Formation et compétences requises :
PRÉREQUIS : thèse de doctorat en fouille de texte ou en modélisation de séries temporelles (avec motivation pour approfondir le domaine du traitement automatique de la langue).

Adresse d’emploi :
LIEU : IMT Atlantique, Brest. (Laboratoire Lab-STICC UMR CNRS 6285, équipe DECIDE)

DÉBUT DE CONTRAT : Dès que possible

DURÉE DU CONTRAT : entre 15 et 18 mois

RÉMUNÉRATION : environ 2300€ net/mois (avant prélèvement impôt à la source)

MODALITÉ DE CANDIDATURE : Le dossier de candidature doit comprendre, en un seul PDF, votre CV, lettre de motivation, liste de publications, les noms de 2-3 référents à contacter ou éventuellement des lettres de recommandation. Le dossier doit être adressé avant le 31 octobre 2020 minuit à :

– Yannis Haralambous : yannis.haralambous@imt-atlantique.fr
– Philippe Lenca : philippe.lenca@imt-atlantique.fr
– Lina Fahed : lina.fahed@imt-atlantique.fr