Sujet du stage : apprentissage bidirectionnel pour l’aide à la décision

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un ingénieur chercheur SystemX du domaine Science des données et IA. Vous travaillerez au sein du projet de recherche CAB (Cockpit et Assistant Bidirectionnel) dont les partenaires sont Dassault Aviation, Orange, Rte, Sncf, Flying Whales  et l’Inria.

Ce projet vise à définir et évaluer un cockpit intelligent intégrant un agent virtuel qui augmentera en temps réel les capacités de prise de décision de l’opérateur face à des situations complexes et/ou atypiques, et dont la particularité est qu’il apprenne de et à l’expert.

Le poste est basé à l’IRT SystemX – Gif sur Yvette

Présentation du sujet du stage

Contexte
L’apprentissage mutuel est défini comme « un processus bidirectionnel impliquant un échange ou/et une action au sein d’une collaboration entre l’homme et la machine », qui se traduit par la création d’un nouveau sens enrichissant l’existant et améliorant les compétences et les capacités de chaque apprenant pour atteindre un même objectif. Ce type d’apprentissage peut être mis en œuvre au sein du paradigme d’Apprentissage par Renforcement avec l’humain dans la boucle (HRL : Humain-in-the-loop Reinforcement Learning). L’intérêt de cette approche réside dans le fait qu’elle peut accélérer la phase d’apprentissage et améliorer les performances de l’agent en l’orientant plus rapidement vers l’objectif à atteindre (preference learning).
La bidirectionnalité dans l’apprentissage peut être également augmentée en associant des explications aux recommandations faites par l’agent. L’humain pourrait ainsi orienter l’agent sur la base des explications fournies et non uniquement sur les actions en retour. Ces explications pourront contribuer à augmenter le niveau de connaissance de l’humain sur le problème sous-jacent, l’aider dans sa prise de décision ainsi que lui donner confiance dans l’assistant intelligent.

Objectif
Ce stage vise à développer des approches d’apprentissage par renforcement guidé par l’humain qui sera en charge de superviser et gérer des systèmes complexes (réseau électrique, ferroviaire, télécom,…).   De manière incrémentale, il sera question de mettre en place différents types d’interactions en partant d’une évaluation simple des recommandations à une évaluation basée sur de l’explicabilité. Une analyse fine des performances des modèles proposés est attendue et une étude sera menée pour évaluer la généralisation de ces derniers sur les différents cas d’usage que porte le projet CAB.

Missions

  • Etat de l’art scientifique sur l’apprentissage mutuel ;
  • Développement de modèles d’apprentissage par renforcement avec l’humain dans la boucle ;
  • Selon l’avancement du stage, développement d’approches d’explicabilité associée ;
  • Test et évaluation des modèles sur différents cas d’usages;
  • Analyse des performances et étude de la généralisation des modèles développés.

Références

  • Roy, S., Kieson, E., Abramson, C., & Crick, C. (2019). Mutual Reinforcement Learning.  arXiv:1907.06725.
  • Liang, H., Yang, L., Cheng, H., Tu, W., & Xu, M. (2017, October). Human-in-the-loop reinforcement learning. In 2017 Chinese Automation Congress (CAC)(pp. 4511-4518). IEEE.
  • Guan, L., Verma, M., Guo, S., Zhang, R., & Kambhampati, S. (2020). Explanation augmented feedback in human-in-the-loop reinforcement learning. arXiv preprint arXiv:2006.14804.
  • Puiutta, E., & Veith, E. M. (2020, August). Explainable reinforcement learning: A survey. In International Cross-Domain Conference for Machine Learning and Knowledge Extraction(pp. 77-95). Springer, Cham.
  • Zhang, R., Torabi, F., Guan, L., Ballard, D. H., & Stone, P. (2019). Leveraging human guidance for deep reinforcement learning tasks. arXiv preprint arXiv:1909.09906.
  • Zhang, Q., Lin, J., Sha, Q., He, B., & Li, G. (2020). Deep interactive reinforcement learning for path following of autonomous underwater vehicle. IEEE Access8, 24258-24268.
  • Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
  • Mandel, T., Liu, Y. E., Brunskill, E., & Popović, Z. (2017, February). Where to add actions in human-in-the-loop reinforcement learning. In Thirty-First AAAI Conference on Artificial Intelligence.

Profil et compétences

Etudiant BAC+5 en fin de cycle école d’ingénieur ou Master 2, dans le domaine de la science des données, IA, statistiques, mathématiques appliquées ou informatique

Compétences : 

  • Reinforcement learning, statistique
  • La connaissance du deep learning et l’un des frameworks Pytorch ou Keras seraient un plus
  • Bon niveau de maitrise dans le langage de programmation (Python)

Aptitudes personnelles :

  • Esprit d’analyse, autonomie, travail collaboratif
  • Intérêt pour la recherche appliquée
  • Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais)
  • Avoir un bon relationnel

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : mars 2022
Localisation du poste : Cluster Paris Saclay (91)
Référence de l’offre à mentionner dans l’objet de votre e-mail de candidature : DSR-2022-22-CAB


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :