Contexte du stage
Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un sscentre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX du domaine Sciences des données et IA dans le cadre d’un projet exploratoire
Objectifs du stage
Le test et l’évaluation de couverture des modèles de machine learning (ML) et de l’intelligence artificielle (IA) en général deviennent des défis d’envergure pour les communités de recherche académique et industrielle et suscitent un intérêt croissant. Cette thématique a pour objectif d’assurer la stabilité et la qualité de généralisation des modèles d’un côté, et la maîtrise de la zone d’application des modèles assortie de bonnes performances de l’autre. En effet, il est important de mentionner que la mise en service d’un module à base d’IA en industrie nécessite la vérification de la couverture de toutes les zones du domaine d’application.
L’évaluation de la couverture d’un modèle de ML se base sur le modèle appris complété du jeu de données d’évaluation. L’évaluation de la stabilité et de la capacité de généralisation du modèle est alors effectuée dans toutes les zones du domaine d’application. Un jeu d’évaluation décrivant toutes ces zones est bien sûr nécessaire pour accomplir correctement ces tests. La notion de couverture recouvre finalement la capacité d’un modèle à maintenir son comportement et ses performances pour toutes les données couvrant les zones ou domaines d’application.
Ce stage a pour objectif d’étudier et d’explorer les avantages de la théorie topologique des données [1] appliquée au machine learning [2] pour évaluer la couverture ; en d’autres termes, identifier les zones connues avec une bonne confiance de décision et les zones inconnues où la confiance de la décision serait moindre. Les travaux se focaliseront sur deux volets, un volet théorique qui permettra de prolonger des travaux [3] sur les dimensions intrinsèques des données d’évaluation et sur les métriques de couverture appliquées aux jeux de données de grandes dimensions [4] et un deuxième volet qui visera l’implémentation sur un cas d’usage industriel en utilisant des librairies avancées telle que la librairie Gudhi [5].
Missions
- Réaliser l’état de l’art sur les méthodes utilisées pour évaluer la couverture des modèles de machine learning.
- Prendre en main les outils d’analyse topologique de données et la librairie Gughi
- Proposer/adapter une métrique de couverture de données par analyse topologique en prenant en compte la nature des données (textes, images, données numériques, catégorielles, …) et l’objectif du modèle (classification, régression, détection et localisation, génération de données, …).
- Implémenter la métrique et l’évaluer sur un cas d’usage.
- Participer à des workshops de l’institut et à des réunions d’équipe
- Présenter les résultats obtenus aux partenaires et en conférence
Références bibliographiques
[1] F. Chazal et B. Michel (2021), An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists, arXiv:1710.04019 [cs, math, stat] [En ligne].
[2] M. Royer, F. Chazal, C. Levrard, Y. Umeda, et Y. Ike, (2021) ATOL: Measure Vectorization for Automatic Topologically-Oriented Learning, in Proceedings of The 24th International Conference on Artificial Intelligence and Statistics, PMLR,. [En ligne]
[3] S. Le Thanh (2023) Coverage Evaluation of Deep Learning Models Using Toplogical Data Analysis », Rapport IRT SystemX, p. 1‑88.
[4] F. Adjed et al. (2022) Coupling algebraic topology theory, formal methods and safety requirements toward a new coverage metric for artificial intelligence models, Neural Comput & Applications, doi: 10.1007/s00521-022-07363-6.
[5] https://gudhi.inria.fr/
Profil et compétences
De formation : BAC +5 / école d’ingénieur ou université master 2, dans le domaine de la data science, mathématiques appliquées.
Compétences :
- Compétencess en Machine learning et deep learning et librairies associées
- Théorie des ensembles
- Langage Python
Aptitudes personnelles:
- Bon relationnel
- Aptitude au travail en mode collaboratif
Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.
Informations clés
Durée du stage : 6 mois
Date de démarrage envisagée : février 2024
Localisation du poste : Palaiseau (91)
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2024–10–explo
Postuler à cette offre d’emploi
Merci de joindre CV, lettre de motivation et relevé(s) de notes.
Domaine :