Stage R&D : Evaluation d’un apprentissage par renforcement avec humain/expert dans la boucle

Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par une ingénieure-chercheuse SystemX du domaine Optimisation avec un appui de l’équipe Science des données et IA.
Vous travaillerez au sein du projet Cockpit Assistant Bidirectionnel (CAB) dont les partenaires industriels sont Dassault, Orange, RTE et SNCF et le partenaire académique Inria.

Présentation du sujet

Objectifs
Le projet Cockpit Assistant Bidirectionnel (CAB) vise, entre autres, à développer et prototyper un cockpit de test générique sur plusieurs cas d’usage industriels dont l’objectif commun est l’assistance des opérateurs dans leur travail au quotidien. Pour cela, l’assistance proposée doit pouvoir faire des propositions pertinentes mais doit aussi s’adapter à l’expert/humain (bidirectionnalité). Ce stage va s’intéresser à une forme d’assistance particulière basée sur l’apprentissage par renforcement (RL) avec un expert/humain dans la boucle.
L’objectif du stage est de mener une étude expérimentale sur un des cas d’usage du projet porté par RTE. Le cas d’usage consiste à créer et évaluer un assistant RL capable de piloter un réseau électrique soumis à des aléas externes (déconnection de ligne) et des surcharges. La qualité de l’apprentissage et la performance de l’assistant à base d’IA seront évaluées en se basant sur des critères d’évaluation issus du domaine de l’apprentissage ou de celui du domaine d’Interaction Homme-Machine, des facteurs humains et du métier.

Missions

Effectuer une recherche bibliographique sur les nouvelles méthodes de RL (Reinforcement Learning) avec humain dans la boucle et sur les cadres d’évaluation associés.
Identifier des critères de performances et implémenter un processus d’évaluation les intégrant.
Partager et valider les critères avec les membres du projet.
Adapter le modèle d’apprentissage dans [1] au cas d’usage du projet.
Apprendre, tester et évaluer le modèle proposé.

Références bibliographiques
[1] Finn, C., Levine, S., & Abbeel, P. (2016, June). Guided cost learning: Deep inverse optimal control via policy optimization. In International conference on machine learning arXiv:1603.00448
[2] Beck, J., Vuorio, R., Liu, E. Z., Xiong, Z., Zintgraf, L., Finn, C., & Whiteson, S. (2023). A survey of meta-reinforcement learning.  arXiv:2301.08028.

Profil et compétences

De formation : BAC +5 / école d’ingénieur ou master 2, dans le domaine des Sciences des données.

Compétences :

Connaissances en Intelligence artificielle / Apprentissage profond / Apprentissage par renforcement
Des connaissances en Interaction humain-machine serait un plus
Bon niveau en développement logiciel (python)
Connaissance des libraires python en lien avec l’IA (numpy, pytorch, gym, …)

Aptitudes personnelles:

Esprit d’analyse
Rigueur
Autonomie
Travail collaboratif en mode projet
Capacité de synthèse

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : janvier 2024
Localisation du poste : GIf-sur-Yvette
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2024–19–CAB