Publié le 19/11/2024
Les réseaux de neurones profonds ont révolutionné le domaine de la vision par ordinateur. Ces modèles apprennent une tâche de prédiction à partir d’exemples. La classification d’images consiste à identifier l’objet principal présent dans l’image. Malgré de très bonnes performances des réseaux de neurones sur cette tâche, il arrive fréquemment qu’ils se trompent de façon imprévue. Cette limitation est un frein à leur utilisation pour de nombreuses applications. L’objectif de cette thèse est d’explorer des moyens de définir un domaine de fiabilité qui expliciterait les conditions pour lesquelles un modèle est fiable.
Trois aspects ont été considérés. Le premier est qualitatif : générer des exemples extrêmes synthétiques permet d’illustrer les limites d’un classifieur et de mieux comprendre ce qui le fait échouer. Le second aspect est quantitatif : la classification sélective permet au modèle de s’abstenir en cas de forte incertitude, et la calibration permet de mieux quantifier l’incertitude de prédiction. Enfin, le troisième aspect est d’inclure de la sémantique : des modèles multimodaux qui associent images et texte sont utilisés pour décrire textuellement les images susceptibles de provoquer de mauvaises, ou inversement, de bonnes prédictions.
La soutenance aura lieu le jeudi 19 décembre à 14h à l’IRT SystemX dans l’amphithéâtre du site Digiteo Moulon Bâtiment 660 université Paris-Saclay, soit à l’adresse suivante : 660 Av. des Sciences Bâtiment, 91190 Gif-sur-Yvette (https://maps.app.goo.gl/dwpFaivDmvDr25VN7)
La présentation sera en français. Vous êtes invités au traditionnel « pot de thèse » qui suivra la soutenance.