CONTEXTE DU STAGE

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX de l’équipe science des données et IA.
Vous travaillerez au sein du programme Confiance-ai (https://www.confiance.ai/), sous-projet EC5, dont les partenaires industriels sont AirLiquide, AIRBUS, Atos, Naval Group, Renault Group, Safran, Sopra Steria, Thales et Valeo et les partenaires académiques CEA, Inria et IRT Saint-Exupéry.

PRESENTATION DETAILLEE DU SUJET
Objectifs du stage

Dans le cadre du programme Confiance-AI et particulièrement de son sous-projet EC5 qui concerne la gestion du cycle de vie des données, plusieurs problématiques techniques et scientifiques sont traitées. Afin de renforcer la confiance dans le processus de génération des modèles basés sur l’apprentissage automatique (ML), l’objectif est de consolider la plateforme de gestion de données « data platform ». Cette dernière met en place les outils et les processus pour gérer le cycle de vie complet des données. Dans ce contexte, plusieurs problématiques sont rencontrées concernant la gestion, visualisation et analyse des données. En effet, plusieurs cas d’usage qui concernent la détection d‘anomalies dans les séries temporelles de suivi de production d’usine ou la détection d’objets dans les vidéos impliquent des données volumineuses, exigent des analyses complexes et des visualisations interactives.
L’objectif de ce stage est d’exploiter la plateforme pour mettre en place un processus complet de gestion de données appliqué aux séries temporelles et à la détection d’objet. Dans ce stage, l’accent sera mis sur l’étude, la mise en place et la visualisation de métriques qui caractérisent la confiance dans chaque étape du processus. En effet, disposer de métriques adaptées [1] est un enjeu majeur pour proposer une évaluation des performances détaillées, et cette évaluation ne peut être complète qu’en remontant aux données [2], afin de comprendre les résultats de manière contextualisée, et d’être en mesure d’itérer pour améliorer les modèles [3].
Les travaux demandés concernent l’incorporation de métriques à différente étapes du cycle de vie des données, tout en s’appuyant sur plusieurs composants de la plateforme : le système de gestion des versions (DVC, MlFlow), le système de stockage, les modèles d’apprentissage automatique et les méthodes d’évaluation des modèles par rapport au domaine opérationnel identifié.

Missions

  • Réaliser un état de l’art sur les métriques utilisées au cours du cycle de vie des données d’un projet d’apprentissage automatique (de la constitution du jeu de données jusqu’à l’exploitation du modèle). Cette analyse doit s’appuyer sur les cas d’usages traités dans le cadre du programme Confiance.AI.
  • Structurer, adapter et améliorer des métriques existantes par rapport au cas d’usage traités.
  • Proposer et mettre en place des nouvelles métriques afin de mieux caractériser, superviser et qualifier un processus de gestion de données. Les métriques doivent permettre de qualifier une étape du processus ainsi que le processus dans son ensemble.
  • Exploiter les composants disponibles au niveau de la plateforme (base de données, MlFlow, visualisation comme DebiAI [4], etc.) afin de stocker, analyser et visualiser les métriques suivant plusieurs niveaux de granularité.
  • Appliquer la méthodologie proposée sur les cas d’usage du programme Confiance.ai (images, time-series) : visualisation, analyse et interprétation de ces résultats dans l’environnement projet.

REFERENCES BIBLIOGRAPHIQUES

  1. Flach, P. (2019). Performance Evaluation in Machine Learning: The Good, the Bad, the Ugly, and the Way Forward. Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 9808-9814. https://doi.org/10.1609/aaai.v33i01.33019808
  2. Mazumder, Mark, Banbury, Colby, Yao, Xiaozhe, Karlaš, Bojan, Rojas, William Gaviria, Diamos, Sudnya, Diamos, Greg, He, Lynn, Kiela, Douwe, Jurado, David, Kanter, David, Mosquera, Rafael, Ciro, Juan, Aroyo, Lora, Acun, Bilge, Eyuboglu, Sabri, Ghorbani, Amirata, Goodman, Emmett, Kane, Tariq, . . . Reddi, Vijay Janapa. (2022). DataPerf: Benchmarks for Data-Centric AI Development. Cornell University – ArXiv. https://doi.org/10.48550/arxiv.2207.10062
  3. Fred Hohman, Kanit Wongsuphasawat, Mary Beth Kery, and Kayur Patel. 2020. Understanding and Visualizing Data Iteration in Machine Learning. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (CHI ’20). Association for Computing Machinery, New York, NY, USA, 1–13. DOI:https://doi.org/10.1145/3313831.3376177
  4. DEBIAI: DEBIAI: A bias detection and contextual evaluation tool for your AI projects. https://debiai.irt-systemx.fr/

PROFIL ET COMPETENCES
De formation : BAC+5, dans le domaine de l’apprentissage machine/IA/statistiques

Compétences souhaitées : 

  • Statistiques, Apprentissage Automatique
  • Base de données
  • Python
  • DataOps, MlOps (MlFlow, etc.)
  • Connaissance dans les librairies de visualisation web est un plus (ex: plotly).

Aptitudes personnelles :

  • Bon relationnel
  • Avoir envie de travailler en mode collaboratif
  • Curiosité, esprit d’initiative, capacité d’analyse et rigueur

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation et relevé de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : à partir de février 2023
Localisation du poste : Palaiseau (91) – Site de Nano-Innov
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2023-16-EC5


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :