CONTEXTE DU STAGE
Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX du domaine Sciences des données et IA dans le cadre d’un projet exploratoire
PRESENTATION DETAILLEE DU SUJET
Objectifs du stage
De nos jours, l’expansion des méthodes dites de deep learning est phénoménale. Cependant, ces méthodes « boites noires » présentent des difficultés d’interprétation et d’explication des résultats obtenus malgré leurs bonnes performances. Ce stage a pour objectif d’étudier et d’explorer les avantages de la théorie topologique des données [1] pour évaluer la couverture, en d’autres termes, identifier les zones connues avec une bonne confiance de décision et les zones inconnues où la confiance de la décision serait moindre.
Le stage se focalisera sur deux volets, un volet théorique qui permettra de proposer des métriques de couverture appliquées sur données de grandes dimensions [2] et un deuxième qui visera l’implémentation et la possibilité d’utilisation de la librairie Gudhi[1] d’analyse topologique, ainsi que son apport à l’interprétabilité et l’explicabilité de la décision d’un modèle neuronal.
Missions
- Réaliser l’état de l’art sur les méthodes utilisées pour évaluer la couverture des modèles de machine learning.
- Proposer/adapter une métrique de couverture de données par analyse topologique en prenant en compte la nature des données (texte, images, données numériques, catégorielles, …) et le type de modèle (classification, régression, détection et localisation, génération de données, …).
- Implémenter la métrique et l’évaluer pour un cas d’usage.
- Participer à des workshops de l’institut et à des réunions d’équipe
- Présenter les résultats obtenus en internes et aux partenaires.
- Préparer une communication en conférence et rédiger le mémoire de stage.
REFERENCES BIBLIOGRAPHIQUES
- F. Chazal et B. Michel, « An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists », arXiv:1710.04019 [cs, math, stat], févr. 2021, http://arxiv.org/abs/1710.04019
- F. Adjed et al., « Coupling algebraic topology theory, formal methods and safety requirements toward a new coverage metric for artificial intelligence models », Neural Comput & Applic, mai 2022, doi: 10.1007/s00521-022-07363-6.
PROFIL ET COMPETENCES
De formation : BAC +5 / école d’ingénieur ou université, dans le domaine de la data science, mathématiques appliquées et/ou mathématiques informatiques.
Compétences souhaitées :
- Machine learning et deep learning
- Théorie des ensembles
- Langage Python
Aptitudes personnelles :
- Bon relationnel,
- Apprécier le mode collaboratif
Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation et relevé de notes.
Informations clés
Durée du stage : 6 mois
Date de démarrage envisagée : à partir de février 2023
Localisation du poste : Palaiseau (91) – Site de Nano-Innov
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2023-04-explo
Postuler à cette offre d’emploi
Mots-clés :