CONTEXTE DU STAGE

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX du domaine Sciences des données et IA dans le cadre d’un projet exploratoire

PRESENTATION DETAILLEE DU SUJET
Objectifs du stage

De nos jours, l’expansion des méthodes dites de deep learning est phénoménale. Cependant, ces méthodes « boites noires » présentent des difficultés d’interprétation et d’explication des résultats obtenus malgré leurs bonnes performances. Ce stage a pour objectif d’étudier et d’explorer les avantages de la théorie topologique des données [1] pour évaluer la couverture, en d’autres termes, identifier les zones connues avec une bonne confiance de décision et les zones inconnues où la confiance de la décision serait moindre.

Le stage se focalisera sur deux volets, un volet théorique qui permettra de proposer des métriques de couverture appliquées sur données de grandes dimensions  [2] et un deuxième qui visera l’implémentation et la possibilité d’utilisation de la librairie Gudhi[1] d’analyse topologique, ainsi que son apport à l’interprétabilité et l’explicabilité de la décision d’un modèle neuronal.

Missions

  • Réaliser l’état de l’art sur les méthodes utilisées pour évaluer la couverture des modèles de machine learning.
  • Proposer/adapter une métrique de couverture de données par analyse topologique en prenant en compte la nature des données (texte, images, données numériques, catégorielles, …) et le type de modèle (classification, régression, détection et localisation, génération de données, …).
  • Implémenter la métrique et l’évaluer pour un cas d’usage.
  • Participer à des workshops de l’institut et à des réunions d’équipe
  • Présenter les résultats obtenus en internes et aux partenaires.
  • Préparer une communication en conférence et rédiger le mémoire de stage.

REFERENCES BIBLIOGRAPHIQUES

  • F. Chazal et B. Michel, « An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists », arXiv:1710.04019 [cs, math, stat], févr. 2021, http://arxiv.org/abs/1710.04019
  • F. Adjed et al., « Coupling algebraic topology theory, formal methods and safety requirements toward a new coverage metric for artificial intelligence models », Neural Comput & Applic, mai 2022, doi: 10.1007/s00521-022-07363-6.

PROFIL ET COMPETENCES
De formation : BAC +5 / école d’ingénieur ou université, dans le domaine de la data science, mathématiques appliquées et/ou mathématiques informatiques.

Compétences souhaitées : 

  • Machine learning et deep learning
  • Théorie des ensembles
  • Langage Python

Aptitudes personnelles :

  • Bon relationnel,
  • Apprécier le mode collaboratif

[1] https://gudhi.inria.fr/

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation et relevé de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : à partir de février 2023
Localisation du poste : Palaiseau (91) – Site de Nano-Innov
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2023-04-explo


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :