Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un ingénieur- chercheur SystemX du domaine Science des données, IA et Interaction.
Vous travaillerez au sein du projet de recherche SystemX EPI (Évaluation des Performances de systèmes de décision à base d’Intelligence Artificielle (IA)) dont les partenaires sont Groupe PSA, Naval Group, Expleo et APSYS.
Le poste est basé à l’IRT SystemX – Palaiseau [site du Nano-Innov].

 

SUJET DU STAGE

L’apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre les actions à prendre, à partir d’expériences, de façon à optimiser une récompense quantitative au cours du temps. L’agent est plongé au sein d’un environnement, et prend ses décisions en fonction de son état courant. En retour, l’environnement procure à l’agent une récompense, qui peut être positive ou négative. L’agent cherche, au travers d’expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant, à l’état courant, l’action à exécuter) optimal, en ce sens qu’il maximise la somme des récompenses au cours du temps.
A l’ère des nouvelles technologies, l’apprentissage par renforcement est fréquemment utilisé pour apprendre la conduite autonome dans des milieux complexes. Cependant comme la plupart des algorithmes intelligents, l’apprentissage par renforcement reste dépendant de l’environnement de l’apprentissage et de plusieurs hyper-paramètres.
L’objectif du stage proposé sera d’étudier la robustesse des algorithmes d’apprentissage par renforcement face à des perturbations de l’environnement. Le premier enjeu sera de générer des perturbations réalistes mais pouvant mettre en échec l’algorithme d’apprentissage. Dans un deuxième temps, les perturbations introduites seront utilisées pour améliorer l’algorithme d’apprentissage. Les résultats du stagiaire contribueront à l’amélioration des deux preuves de concept du projet réalisés dans les domaines du transport autonome et maritime.

Le déroulement du stage sera comme suit :
• Réalisation d’un état de l’art sur les perturbations des algorithmes d’apprentissage par renforcement.
• Prise en main des algorithmes d’apprentissage par renforcement disponibles au sein du projet ou implémentation de nouveaux algorithmes.
• Proposition d’un protocole de génération de perturbation de l’environnement.
• Étude de la robustesse des algorithmes d’apprentissage face aux perturbations proposées.

Références :
1. “Challenges in Autonomous Vehicle Testing and Validation”, Philip Koopman, Michael Wagner, SAE Int. J. Trans. Safety 4(1):15-24, 2016.
2. “Human-Like Driving: Empirical Decision-Making System for Autonomous Vehicles”, Liangzhi Li, Kaoru Ota, Mianxiong Dong, IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY, Volume: 67 , Issue: 8, Aug. 2018.
3. “Driving to Safety: How Many Miles of Driving Would It Take to Demonstrate Autonomous Vehicle Reliability?”, Nidhi Kalra, Susan M. Paddock, RAND Corporation, https://www.rand.org/pubs/research_reports/RR1478.html , 2014.
4. “DeepRoad: GAN-based metamorphic testing and input validation framework for autonomous driving systems”, Mengshi Zhang, Yuqun Zhang, Lingming Zhang, Cong Liu, and Sarfraz Khurshid. In Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering (ASE 2018).
5. “Simulation-based Adversarial Test Generation for Autonomous Vehicles with Machine Learning Components”, Cumhur Erkan Tuncali, Georgios Fainekos, Hisahiro Ito, James Kapinski, 29th IEEE Intelligent Vehicles Symposium (IV 2018).
6. “Generative adversarial nets”, Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2 (NIPS’14).
7. Pinto, L., Davidson, J., Sukthankar, R., & Gupta, A. (2017, August). Robust adversarial reinforcement learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 2817-2826). JMLR. Org.
8. Held, D., Geng, X., Florensa, C., & Abbeel, P. (2017). Automatic goal generation for reinforcement learning agents. arXiv preprint arXiv:1705.06366.

 

PROFIL

Étudiant BAC+5 en fin de cycle école d’ingénieur ou Master 2, dans le domaine de la science des données, IA, statistiques, mathématiques appliquées ou informatique avec une spécialisation en science des données et en machine learning.

Compétences :
• Maîtrise du langage de programmation Python
• Machine Learning, apprentissage par renforcement
• Base de données

Aptitudes personnelles :
• Esprit d’analyse, autonomie, travail collaboratif
• Intérêt pour la recherche appliquée
• Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais)
• Intérêt pour les transports autonomes

 

Durée du stage : 6 mois
Date de démarrage envisagée : mars 2020

Pour postuler : hatem.hajri@irt-systemx.fr en indiquant la référence DSC_2020_EPI_01_01 en objet

- ABONNEMENT NEWSLETTER

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :