Sujet du stage : Métriques et extraction de caractéristiques : mieux comprendre les données et leur impact sur la robustesse des modèles de machine learning

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un.e ingénieur.e-chercheur.euse de l’équipe « Science des données et interaction » de l’IRT SystemX.

Vous travaillerez au sein du programme de recherche SystemX Confiance.ai dont les partenaires industriels sont Airbus, Air Liquide, Atos, Naval Group, Renault, Safran, Sopra Steria, Thalès, Valeo et les partenaires académiques CEA, Inria, IRT Saint Exupéry, IRT SystemX.

Le poste est basé à l’IRT SystemX – Palaiseau

Présentation du sujet du stage

Objectifs du stage
Le stage s’intègre dans le programme de recherche Confiance.ai dédié aux outils et méthodologies pour la conception d’intelligences artificielles de confiance. Il s’attache notamment à lever des verrous scientifiques relatifs à la construction et à l’évaluation de composants IA à confiance maîtrisée, ou encore à la construction de jeux de données pour augmenter la confiance dans l’apprentissage.
Déployer des composants d’IA de confiance passe par une compréhension fine de leurs modèles dans toutes les conditions d’utilisation. Dans ce contexte, disposer de métriques adaptées [1] est un enjeu majeur pour proposer une évaluation des performances détaillées. Cette évaluation ne peut être complète qu’en remontant aux données, afin de comprendre les résultats de manière contextualisée, et d’être en mesure d’itérer pour améliorer les modèles [2].
Dans ce cadre, le stage portera sur l’identification et l’application de métriques et approches machine learning pour extraire des caractéristiques permettant de mieux comprendre les données, de découvrir leurs structures latentes, et d’identifier leur impact sur la robustesse des modèles quel que soit le type de modèle (régression ou classification, machine learning ou deep learning).

Missions

  • Effectuer un état de l’art sur les méthodes statistiques et de machine learning concernant l’extraction de caractéristiques dans les jeux de données, et leur utilisation lors de l’évaluation de modèles de machine learning. Les techniques étudiées pourront notamment porter sur le clustering, la réduction de dimension pour la visualisation (ACP, t-SNE [3], UMAP [4]), les techniques de raisonnement contrefactuel [5] ou encore les techniques de visualisation et de compréhension des sorties d’un réseau de neurone [6].
  • Identifier les librairies et outils existants (comme ai, What-If Tool) remplissant certaines de ces fonctionnalités, et identifier les fonctionnalités manquantes au vu de l’état de l’art.
  • Tester les outils et librairies sélectionnés sur les cas d’usage du programme Confiance.ai (images, time-series) : visualisation, analyse et interprétation de ces résultats dans l’environnement projet.

Références bibliographiques

  • Flach, P. (2019). Performance Evaluation in Machine Learning: The Good, the Bad, the Ugly, and the Way Forward. Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 9808-9814. https://doi.org/10.1609/aaai.v33i01.33019808
  • Fred Hohman, Kanit Wongsuphasawat, Mary Beth Kery, and Kayur Patel. 2020. Understanding and Visualizing Data Iteration in Machine Learning. In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (CHI ’20). Association for Computing Machinery, New York, NY, USA, 1–13. DOI:https://doi.org/10.1145/3313831.3376177
  • Van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of machine learning research, 9(11).
  • McInnes, L., Healy, J., & Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.
  • Wexler, J., Pushkarna, M., Bolukbasi, T., Wattenberg, M., Viégas, F., & Wilson, J. (2019). The what-if tool: Interactive probing of machine learning models. IEEE transactions on visualization and computer graphics, 26(1), 56-65.
  • Liu, S., Wang, X., Liu, M., & Zhu, J. (2017). Towards better analysis of machine learning models: A visual analytics perspective. Visual Informatics, 1(1), 48-56.

Profil et compétences

De formation : BAC +5, dans le domaine de l’apprentissage machine/IA/statistiques

Compétences : 

  • Machine learning (scikitlearn, tensorflow, pytorch)
  • Python
  • Statistiques
  • Les bases dans une librairie de visualisation web est un plus (par exemple : plotly).

Aptitudes personnelles :

  • Bon relationnel
  • Avoir envie de travailler en collaboration
  • Curiosité, esprit d’initiative, capacité d’analyse et rigueur

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : entre janvier et avril 2022
Localisation du poste : Cluster Paris Saclay (91)
Référence de l’offre à mentionner dans l’objet de votre e-mail de candidature : DSR-2022-31-ConfianceEC5


Postuler à cette offre d’emploi

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :