CONTEXTE DU STAGE

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX du domaine science des données et IA.
Vous travaillerez au sein du programme confiance-ai (https://www.confiance.ai/), sous-projet EC5, dont les partenaires industriels sont AirLiquide, AIRBUS, Atos, Naval Group, Renault Group, Safran, Sopra Steria, Thales et Valeo et les partenaires académiques CEA, Inria et IRT Saint-Exupéry.

PRESENTATION DETAILLEE DU SUJET
Objectifs du stage
Dans le cadre du programme Confiance-AI et particulièrement de son sous-projet EC5 qui concerne la gestion du cycle de vie des données, plusieurs problématiques techniques et scientifiques sont traitées. Afin de renforcer la confiance dans le processus de génération des modèles basés sur l’apprentissage automatique (ML), l’objectif est de consolider la plateforme de gestion de données « data platform ». Cette dernière met en place les outils et les processus pour gérer le cycle de vie complet des données. Dans ce contexte, plusieurs problématiques sont rencontrées concernant la gestion, visualisation et analyse des données. En effet, plusieurs cas d’usage qui concernent la détection d‘anomalies dans les séries temporelles de suivi de production d’usine ou la détection d’objets dans les vidéos impliquent des données volumineuses, exigent des analyses complexes et des visualisations interactives.

L’objectif de ce stage est de mettre en place des processus optimisés afin de permettre d’acheminer efficacement des volumes importants de données entre les systèmes de stockage, les modèles ML et les outils d’analyse et visualisation des données. Les travaux demandés impliquent plusieurs composants de la plateforme : le système de gestion des données, l’exploitation des algorithmes d’apprentissage automatique (ML) et les outils d’analyse et de visualisation des données (outil SystemX « DebiAI » [4]).

Missions

  • Etudier, mesurer [1, 2, 3] et évaluer le système actuel d’échange de données entre les applications et au sein d’une même application (Front-end et back-end). L’évaluation prendra en compte plusieurs paramètres (volumétrie des données, type des données, le cas d’usage, etc.) et critères (temps, occupation mémoire, etc.). L’analyse et l’évaluation porteront sur le processus d’intégration de données et les applications qui exploitent (analyse et visualisation) les données par exemple: DebiAI [4].
  • Proposer, mesurer, évaluer et mettre en place plusieurs solutions techniques pour optimiser le traitement, l’analyse et la visualisation des données (patrons d’architectures, type de stockage, structure des données, protocoles de communication, techniques de visualisation, etc.).
  • Adaptation des solutions de traitement aux différents cas d’usages (détection d’anomalies dans une usine, détection de piétons sur une image, etc.) et différents types de données [1, 2, 3]. Les solutions/méthodologies retenues doivent être intégrées/appliquées au sein de l’environnement de déploiement (Kubernetes).

REFERENCES BIBLIOGRAPHIQUES

  1. Mathe, Z.; Ramo, A.C.; Stagni, F.; Tomassetti, L. Evaluation of NoSQL databases for DIRAC monitoring and beyond. J. Phys. Conf. Ser. 2015, 664, 042036.
  2. Matallah, H; Belalem, G.; Bouamrane. K. Evaluation of NoSQL Databases: MongoDB, Cassandra, HBase, Redis, Couchbase, OrientDB. International Journal of Software Science and Computational Intelligence. Volume 12, Issue 4, 2020
  3. Panche, R.; Ilijoski, B.; Tojtovska, B. Comparing Databases for Inserting and Querying JSONs for Big Data. ICT Innovations 2019, Web Proceedings.
  4. DEBIAI: A bias detection and contextual evaluation tool for your AI projects. https://debiai.irt-systemx.fr/

PROFIL ET COMPETENCES
De formation : BAC+5 (école d’ingénieur ou université), dans le domaine du logiciel, des bases de données ou de la science de la donnée.

Compétences souhaitées : 

  • Python, JavaScript, Node JS
  • Gestion des données (MongoDB, Elasticsearch, Kafka, InfluxDB, etc.)
  • MlOps et DataOps
  • Développement web
  • Docker, Kubernetes

Aptitudes personnelles :

  • Autonomie, curiosité et bon relationnel
  • Avoir envie de découvrir de nouvelle technologie,
  • Curiosité, esprit d’initiative, capacité d’analyse et rigueur

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation et relevé de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : à partir de février 2023
Localisation du poste : Palaiseau (91) – Site de Nano-Innov
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2023-15-EC5


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :