Sujet du stage : Fusion de données pour la caractérisation d’anomalies sur des séries temporelles multi-sources

Au sein de l’Institut de Recherche Technologique SystemX, situé au coeur du campus scientifique Paris-Saclay, vous prendrez une part active au sein d’un projet de Recherche Exploratoire qui vise à définir un cadre méthodologique pour l’évaluation d’approches de détection d’anomalies à partir de données multisources.

Le poste est basé à l’IRT SystemX – Gif sur Yvette [site du Moulon] où vous serez encadré par un ingénieur-chercheur SystemX du domaine Science des données et IA.

Vous aurez également des interactions régulières avec le partenaire du projet l’Université Gustave Eiffel.

Présentation du sujet du stage

Objectifs du stage 

Le stage s’inscrit dans le cadre d’un projet exploratoire portant sur la fusion de données pour la caractérisation d’anomalies sur des données multi-sources. Il se base sur des travaux antérieurs ayant porté sur la détection d’anomalies de manière non-supervisée par des algorithmes d’apprentissage (modèles probabilistes, machine learning et deep learning), ayant été appliqués sur plusieurs sources de données liées à la mobilité (Transport en commun ferroviaire).
Le stage vise à la conception de modèles de détection d’anomalies sur des séries temporelles et à l’approfondissement de la problématique de fusion de données liée à des remontées d’anomalies sur différentes sources de données. Il s’intéressera également à la conception d’un cadre méthodologique permettant de confronter sur des données multi-sources les signaux d’anomalies extraits à partir des modèles de détection.

La confrontation de ces signaux pourrait faire apparaître des problématiques spécifiques liées à l’agrégation spatiale et temporelle, l’interprétation de l’impact d’anomalies ainsi que la gestion d’informations discordantes. Elle est également une source de richesse permettant d’investiguer la caractérisation d’anomalies par pattern matching : certaines anomalies partagent-elles des caractéristiques spécifiques liées à certaines sources de données ? Est-il possible d’identifier certains motifs pouvant être liés à des causes d’anomalies particulières ?

La principale application pratique concernera la caractérisation des perturbations sur une portion du réseau de transport d’Ile-de-France, au travers de l’analyse statistique de données provenant de différentes sources mesurant l’affluence et le plan de transport réalisé (charge à bord, ponctualité des trains, affluence en station). Le stagiaire devra modéliser dynamiquement l’état du réseau de transport en commun pour en extraire différentes traces d’anomalies (saturation en gare, sur-affluence dans les trains, altération du plan de transport, …). Il cherchera dans un premier temps à confronter les signaux d’anomalies pour identifier les perturbations sur le réseau de transport en se reposant sur une base d’anomalies qualifiée comme partielle.

Missions :

  • Prendre connaissance du fonctionnement du service de perception collective et mettre à jour le support de ces services dans le simulateur Artery (en suivant la spécification du standard ETSI[1]).
  • Définir une interface logicielle d’intégration de données réelles issues des expérimentations avec des capteurs des navettes NAVYA dans le simulateur Artery
  • Etendre les mécanismes de détection de mauvais comportements déjà implémentés et testés sur le simulateur : Les mécanismes implémentés sur la plateforme de simulation sont basiques et ne permettent que la détection de certaines attaques dans des scénarios particuliers. L’objectif ici est d’étendre les détections existantes avec des mécanismes avancés issues du domaine de la fusion de données.

Le stage pourra aboutir à une publication scientifique en workshop ou en conférence internationale.

Références bibliographiques sur le sujet :

[1] J. Kamel, M. R. Ansari, J. Petit, A. Kaiser, I. Ben Jemaa and P. Urien, « Simulation Framework for Misbehavior Detection in Vehicular Networks, » in IEEE Transactions on Vehicular Technology, vol. 69, no. 6, pp. 6631-6643, June 2020, doi: 10.1109/TVT.2020.2984878.
[2] Allig, C., Leinmuller, T., Mittal, P., & Wanielik, G. (2019). Trustworthiness Estimation of Entities within Collective Perception. IEEE Vehicular Networking Conference, VNC, 2019December.

[1] European Telecommunications Standards Institute

 

Profil et compétences

De formation : De formation : BAC +5 (Master 2)/école d’ingénieur 3ème année, dans le domaine du traitement de signal, de l’analyse des données ou des télécommunications

Compétences :

  • Développement C++, python
  • Simulateur Omnet++/Veins/Artery
  • Analyse des données
  • Des connaissances en véhicule connecté seraient un plus
  • Des connaissances en fusion des données/IA/Machine Learning seraient un plus

Aptitudes personnelles :

  • Bon relationnel
  • Travail en équipe
  • Autonomie
  • Force de proposition

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : mars 2022
Localisation du poste : Cluster Paris Saclay (91)
Référence de l’offre à mentionner dans l’objet de votre e-mail de candidature : DSR-2022-33-Explo


Postuler à cette offre d’emploi

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :