Contexte de la thèse

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Le sujet de thèse a été défini par le consortium réuni dans le cadre du projet « Sémantiques Métier pour l’exploitation de Données multi-sources » (SMD). Ce projet vise à développer des outils combinant des fonctions de construction, d’intégration et d’exploitation de connaissances à partir de données hétérogènes et multi-sources, pour l’aide à la décision dans un environnement statique ou dynamique. Ces outils seront basés sur des techniques hybridant les approches récentes de l’Intelligence artificielle (IA) et les techniques de l’IA Symbolique en collaboration avec l’humain, pour extraire du flux de données la connaissance qui sera utile à la bonne personne et au bon moment.

La direction de la thèse sera assurée par Céline Hudelot du laboratoire MICS de CentraleSupélec et la thèse sera inscrite à l’école doctorale INTERFACES de l’Université Paris-Saclay. Le doctorant bénéficiera également d’un encadrement scientifique à l’IRT par encadrant référent, ingénieur-chercheur au sein du projet SMD.

Au sein de l’IRT SystemX, le doctorant sera rattaché à l’axe scientifique « Sciences des données & Interaction ».

Sujet de thèse

Contexte et état de l’art

Il est de notoriété publique que le domaine de l’IA a vécu récemment un épisode de rupture et ce, principalement grâce aux récents progrès en apprentissage profond et à la disponibilité de masses de données et de ressources de calcul et de stockage. Les approches dites d’apprentissage profond ont d’ailleurs permis des gains de performance considérables sur des problèmes réputés difficiles comme la reconnaissance visuelle [1], la traduction automatique [2], la reconnaissance de la parole [3] ou encore le jeu de Go [4].  En particulier, l’apprentissage profond a fait évoluer le paradigme de l’utilisation de caractéristiques prédéfinies vers l’apprentissage de représentations avec des modèles multicouches [5]. De plus, les réseaux neuronaux profonds se sont révélés efficaces pour apprendre de bonnes représentations hiérarchiques des données, pouvant même être transférées vers d’autres tâches [6] (transfert d’apprentissage) ou d’un domaine à un autre [7] (adaptation de domaines).

Ces avancées ouvrent de nombreuses perspectives pour les entreprises qui, avec la transformation numérique, disposent et doivent analyser et interpréter d’importants volumes de données, et ce quelque-soit leur secteur d’activité. Pour cela, de nombreux verrous scientifiques doivent être levés.

Un verrou important est relatif à l’importance des connaissances métier et expertes. Les approches d’apprentissage profond mentionnées ci-dessus sont très performantes quand elles sont utilisées dans un cadre d’apprentissage supervisé et nécessitent donc de grandes bases de données annotées. Si la communauté scientifique a su mettre à disposition de la communauté de grandes bases annotées comme ImageNet [1] pour les tâches de reconnaissance visuelle, cette approche n’est pas facilement transposable aux données industrielles (coût de l’annotation, annotation experte respectant la terminologie des métiers, disponibilité et sensibilité des données…). Par ailleurs, les connaissances métier sont extrêmement riches avec parfois, dans un souci de capitalisation, des connaissances explicites, par exemple sous la forme de référentiels, de règles ou d’ontologies et très souvent des connaissances tacites, de savoir-faire. Un verrou et challenge important concerne donc l’hybridation des approches de représentation des connaissances et du raisonnement (IA symbolique) avec les approches plus basées sur l’exploitation des données comme les approches d’apprentissage profond. Bien que cette question de l’hybridation des approches d’IA (symbolique, connexionniste, numérique) soit un sujet très actuel, notamment à des fins d’explicabilité[1] ou pour la construction d’une IA de confiance [8], il y a encore peu de travaux portant sur l’hybridation dans le contexte de l’analyse de données hétérogènes. Dans les approches prometteuses, on peut citer les approches qui cherchent à intégrer des techniques de raisonnement sémantique sur des ontologies pour guider le transfert d’apprentissage avec comme cadre d’application la prédiction du trafic et de la qualité de l’air dans des villes différentes [9]. D’autres approches s’intéressent à la proposition de modèles hybrides en tant que tels comme par exemple les Tensor Logic Networks ou les approches neuro-symboliques [10,11].

Un autre verrou important concerne la nature des données industrielles, fortement hétérogènes et multi-sources (souvent des flux de données structurées ou non structurées provenant de différentes sources) et il est donc nécessaire de pouvoir disposer de modèles capables de gérer cette hétérogénéité. Plusieurs schémas d’apprentissage de représentations multimodales de données hétérogènes [12,13] ainsi que de nouvelles stratégies de fusion de ces données [14] (et/ou représentation) ont été proposées dans la littérature. En particulier, plusieurs approches récentes se basent sur l’apprentissage de représentations multi-vues par minimisation de l’information mutuelle. Bien que très prometteuses, ces approches souffrent de deux limitations. D’une part, elles se basent sur une hypothèse de complémentarité des différentes sources d’information, ce qui n’est parfois pas le cas (cas du désaccord entre deux sources) et d’autre part elles sont souvent dédiées au cadre de la seule multimodalité texte-image.

Dans ce contexte, l’objectif de cette thèse est de proposer des avancées en hybridation des approches de représentation des connaissances et du raisonnement (ontologies), avec les approches d’apprentissage profond pour l’analyse de documents et de données multimodales hétérogènes.

 

Approche méthodologique proposée

Une piste de travail envisagée est de partir des travaux intégrant raisonnement sémantique et transfert d’apprentissage [9]. Dans ces travaux, une modélisation formelle d’une tâche d’apprentissage est proposée en se basant sur le concept d’ontologie du domaine d’apprentissage (LSO : Learning Sample Ontology). Puis, à partir de cette modélisation, le concept de transférabilité sémantique est introduit à partir de mesures de variabilité entre deux ontologies, et utilisé pour guider le transfert d’apprentissage d’un domaine source à un domaine cible. Un des premiers objectifs de cette thèse peut donc être d’enrichir ces travaux selon plusieurs directions :

  • Une première direction porte sur l’extension de l’approche proposée au cadre de la multimodalité, en s’inspirant par exemple des travaux du laboratoire MICS portant sur l’alignement d’ontologies multimédia [15].
  • Plus généralement, la prise en compte de données hétérogènes et multi-sources appelle à de nouveaux développements dans différentes directions. Au niveau sémantique, il conviendra de définir formellement une tâche d’apprentissage dans ce contexte multimodal hétérogène. De plus, l’hétérogénéité et la diversité des sources d’information nécessitent de nouveaux schémas d’apprentissage et de fusion de données capables de prendre en compte les différents types d’hétérogénéité (sémantique, structurelle, temporelle…)
  • Une autre question intéressante porte sur la notion de transférabilité définie dans [10] de manière sémantique comme l’existence de connaissances du domaine source qui ont des effets positifs sur la qualité de la fonction de prédiction de la tâche d’apprentissage sémantique cible. De nombreux développements peuvent être envisagés ici. Notamment, des travaux récents du laboratoire MICS sur l’apprentissage de représentations invariantes [16] et universelles [17] pour l’adaptation de domaine et le transfert d’apprentissage ont montré l’importance de la prise en compte du biais inductif, notamment dans le cadre de changements de distribution entre le domaine source et le domaine cible. Une piste de recherche intéressante est donc l’étude des liens et l’hybridation entre les différentes mesures de caractérisation statistique d’un domaine d’apprentissage et les mesures de caractérisation sémantique.
  • Enfin et plus globalement, il conviendra aussi de se placer dans un cadre d’application réaliste. Dans [10], les développements sont construits sur un cadre d’apprentissage supervisé avec des données labélisées et des connaissances formalisées sous la forme d’ontologies pour le domaine source et le domaine cible. Il convient de challenger ce cadre. En effet, il est peu réaliste de considérer le cadre supervisé comme toujours possible et il conviendra d’intégrer dans les réflexions des cadres d’apprentissage plus réalistes comme l’apprentissage actif, semi-supervisé ou plus globalement les paradigmes d’apprentissage avec peu d’exemples [18]. De plus, la disponibilité de connaissances formalisées sous forme d’ontologies pour les différents domaines est aussi une hypothèse très forte et qui devra être progressivement levée au fur et à mesure des travaux, en considérant par exemple le cas de connaissances incomplètes et approximatives [19] et en s’intéressant aux schémas de construction d’ontologies à partir de données [20].

 

Expérimentation, cas d’usage

Tous les travaux mentionnés ci-dessus donneront lieu à un travail de validation expérimentale. Plusieurs cas d’usage seront envisagés dont une validation sur des benchmarks publics et une validation sur les cas d’usage du projet IA2-SMD. Une démarche incrémentale sera mise en place concernant cette validation expérimentale avec des cas d’usage à difficulté croissante.

Plan de travail, calendrier 

Le plan de travail de la thèse, classique, est le suivant :

  • Dans les 3 à 4 premiers mois de la thèse, il est attendu un travail bibliographique sur les principales approches mentionnées dans le sujet, visant à identifier précisément les principales opportunités et à préciser les premières directions des travaux. De premières petites expérimentations sur des données provenant des cas d’usages identifiés par le projet SMD seront aussi effectuées en début de thèse pour permettre d’une part la prise en main des principaux outils du domaine, mais aussi pour avoir une compréhension plus fine de l’état de l’art et des données visées.
  • Ensuite, les directions envisagées à la suite du travail bibliographique seront approfondies, développées et appliquées aux données du projet SMD ainsi que sur les données de la communauté pour la publication des travaux.
  • Les travaux effectués seront diffusés sous la forme de publications scientifiques dans les grandes conférences du domaine mais aussi sous la forme de “démonstrateurs” dans le contexte du projet SMD

 

Références bibliographiques 

  • Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  • F Stahlberg – Neural machine translation: A review – Journal of Artificial Intelligence Research, 2020
  • A. Kumar, S. Verma and H. Mangla, « A Survey of Deep Learning Techniques in Speech Recognition, » 2018 International Conference on Advances in Computing, Communication Control and Networking (ICACCCN), 2018, pp. 179-185
  •  Silver, D., Huang, A., Maddison, C. et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, 484–489 (2016).
  • Y. Bengio, A. Courville and P. Vincent, « Representation Learning: A Review and New Perspectives, » in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1798-1828, Aug. 2013, doi: 10.1109/TPAMI.2013.50.
  • M. Oquab, L. Bottou, I. Laptev and J. Sivic, « Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks, » 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1717-1724
  • Garrett Wilson and Diane J. Cook. 2020. A Survey of Unsupervised Deep Domain Adaptation. ACM Trans. Intell. Syst. Technol. 11, 5, Article 51 (September 2020), 46 pages.
  • Juliette Mattioli, F Terrier, L Cantat, J Chiaroni, M Barreteau, et al.. IA de confiance : condition nécessaire pour le déploiement de l’IA dans les systèmes de défense. 2020.
  • Lécué, F. et al. “Augmenting Transfer Learning with Semantic Reasoning.” IJCAI (2019).
  • Serafini, Luciano & Garcez, Artur. (2016). Logic Tensor Networks: Deep Learning and Logical Reasoning from Data and Knowledge
  • Sarker, M.K., Zhou, L., Eberhart, A., & Hitzler, P. (2021). Neuro-Symbolic Artificial Intelligence: Current Trends. ArXiv, abs/2105.05330.
  • C. Zhang, Z. Yang, X. He and L. Deng, « Multimodal Intelligence: Representation Learning, Information Fusion, and Applications, » in IEEE Journal of Selected Topics in Signal Processing, vol. 14, no. 3, pp. 478-493, March 2020
  • W. Guo, J. Wang and S. Wang, « Deep Multimodal Representation Learning: A Survey, » in IEEE Access, vol. 7, pp. 63373-63394, 2019
  • Juan-Manuel Pérez-Rúa, Valentin Vielzeuf, Stéphane Pateux, Moez Baccouche, Frédéric Jurie. MFAS: Multimodal Fusion Architecture Search. CVPR 2019, Jun 2019, Long Beach, United States
  • Konstantin Todorov, Céline Hudelot, Adrian Popescu, Peter Geibel. Fuzzy ontology alignment using background knowledge. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, World Scientific Publishing, 2014, 22 (1), pp.75-112
  • Victor Bouvier, Philippe Very, Clément Chastagnol, Myriam Tami, Céline Hudelot. Robust Domain Adaptation: Representations, Weights and Inductive Bias. ECML 2020, Sep 2020, Gand
  • Y. Tamaazousti, H. Le Borgne, C. Hudelot, M. -E. -A. Seddik and M. Tamaazousti, « Learning More Universal Representations for Transfer-Learning, » in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 42, no. 9, pp. 2212-2224, 1 Sept. 2020,
  • Mi-thèse Yassine Ouali – MICS – Image Segmentation with Limited Labels.
  • Stephen K. Reed, Adam Pease, Reasoning from imperfect knowledge, Cognitive Systems Research, Volume 41, 2017, Pages 56-72, ISSN 1389-0417,
  • Mehrnoush Shamsfard and Ahmad Abdollahzadeh Barforoush. 2004. Learning ontologies from natural language texts. Int. J. Hum.-Comput. Stud. 60, 1 (January 2004), 17–63.

 

Profil recherché

De formation bac +5 (Master ou Ingénieur) en Informatique / Mathématiques appliquées / Science des données / Apprentissage statistique

Connaissances et savoir-faire essentiels :

  • Maitrise des concepts, méthodes et algorithmes de construction, gestion et utilisation de connaissances (web sémantique, raisonnement, IA symbolique, …)
  • Maîtrise des concepts, méthodes et algorithmes de Machine Learning, notamment les approches de Deep Learning
  • Maîtrise des environnements logiciels pour la gestion des connaissances et le Machine Learning, bonne maîtrise de Python – la connaissance d’une librairie d’apprentissage profond sera un plus certain.
  • Aptitude d’analyse détaillée et en profondeur de résultats d’expérimentations, et aptitude à proposer des solutions

Qualités professionnelles :

  • Capacité d’analyse, autonomie, esprit d’équipe
  • Aptitude à communiquer à l’oral et à l’écrit en français et en anglais 

REF : DIT-03-2021

Informations clés

Type de contrat : Thèse
Localisation du poste : Cluster Paris Saclay (91)

Pour postuler, merci de mentionner le numéro de référence : DIT-03-2021


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :