Publié le 27/03/2026
L’apprentissage par renforcement (RL) permet à des agents artificiels d’apprendre par essais et erreurs, à l’image des humains et des animaux, à réaliser des tâches. Malgré des avancées importantes dans des domaines comme les jeux, la robotique ou la navigation, ces agents restent très sensibles aux variations de leur environnement. De faibles perturbations dans les observations, la dynamique ou le bruit des capteurs peuvent entraîner des comportements imprévisibles, voire dangereux, ce qui limite leur déploiement dans des contextes réels. Cette thèse s’intéresse à la conception d’agents RL capables de maintenir des performances fiables en présence d’incertitudes et de perturbations. Elle explore le rôle de l’entraînement adverse comme levier pour améliorer la robustesse, en considérant non seulement des perturbations des observations mais aussi des modifications de la dynamique de l’environnement, avec des effets à long terme sur les performances de l’agent. Au-delà de l’entraînement individuel, ce travail étudie l’intérêt de combiner plusieurs politiques pour favoriser la généralisation de la robustesse face à des perturbations variées. Il s’appuie enfin sur des mécanismes adaptatifs permettant de moduler l’intensité des perturbations à chaque situation au cours de l’apprentissage, afin de stabiliser l’entraînement et de favoriser une acquisition progressive de comportements robustes. Ainsi, cette thèse propose une réflexion globale sur la robustesse en RL, en combinant entraînement adverse, diversité des politiques et adaptation dynamique des perturbations, dans l’objectif de rapprocher ces méthodes des exigences des environnements réels.
La soutenance aura lieu le 14 avril à 14h00 à Sorbonne Université, Bâtiment Esclangon, Amphithéâtre Astier, 4 place Jussieu 75005 Paris