Sujet du stage : Construction des connaissances à partir de données textuelles

Contexte du stage
Au sein de l’Institut de Recherche Technologique SystemX, situé au coeur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un.e ingénieur.e-chercheur.euse de l’équipe « Interaction, usages et connaissances » de l’IRT SystemX.
Vous travaillerez au sein du programme d’Intelligence Artificielle et Ingénierie Augmentée (IA2) dans le projet SMD (Sémantiques Métier pour l’exploitation de Données multi-sources) dont les partenaires industriels sont Airbus Defence and Space Secure Land communications, Apsys, Ecosys, EDF, RTE et les partenaires académiques CentraleSupélec, IRT SystemX.

Le poste est basé à l’IRT SystemX – Gif sur Yvette [site du Moulon].

Présentation du sujet du stage

Le stage s’intègre dans le projet SMD qui vise à hybrider l’IA symbolique et apprentissage automatique pour construire et exploiter des connaissances sur des données hétérogènes multi-sources, afin de favoriser l’aide à la décision en environnement statique ou dynamique. L’objectif de ce stage est d’apporter un renfort les travaux d’analyse et l’extraction des connaissances à partir des documents textuels du projet. Il s’agit d’étudier et de tester plusieurs méthodes de l’état de l’art en matière d’extraction des entités nommées pour l’identification d’information (ex. exigences ou des alertes liées à des incidents) et de construction d’ontologies à partir de texte en exploitant les techniques d’Intelligence artificielles et les techniques d’ingénieries de connaissances plus classiques.

Missions
• Effectuer un état de l’art sur les ontologies existantes dans le domaine du cas d’usage du projet choisi (exp. énergie ou ingénierie des exigences, etc.)
• Conception de l’ontologie de domaine cible suivant le résultat de l’état de l’art
• Effectuer un état de l’art sur les méthodes d’extraction des entités nommées et leur utilisation afin d’extraire des éléments pertinents au sein d’un document technique (ex : des exigences, des alertes). Cet état de l’art devra également couvrir les méthodes reformulations ainsi que les approches de découverte de liens entre entités nommées à l’aide de réseaux de neurones
• Génération automatique de graphe à partir des concepts extraits
• Identifier les librairies et outils existants (exp. comme spaCy, etc.) remplissant certaines de ces fonctionnalités, et identifier les fonctionnalités manquantes au vu de l’état de l’art.
• Contribuer au développement des services et interfaces web de la plateforme du projet
• Tester les outils et librairies sélectionnés sur le cas d’usage du projet. Analyse et interprétation des résultats au regard des attentes du projet notamment en termes de qualité.

Références bibliographiques :
[1] Mehrnoush Shamsfard and Ahmad Abdollahzadeh Barforoush. 2004. Learning ontologies from natural language texts. Int. J. Hum.-Comput. Stud. 60, 1 (January 2004), 17–63.
[2] Paek, Jeongyeup, An, JungHyen, Park, Young, B.Methodology for Automatic Ontology Generation Using Database Schema Information, Mobile Information Systems, 2018
[3] Drissi, Amani and Khemiri, Ahmed and Sassi, Salma and Chbeir, Richard, A New Automatic Ontology Construction Method Based on Machine Learning Techniques: Application on Financial Corpus, 2021, Proceedings of the 13th International Conference on Management of Digital EcoSystems, 57–61, New York, NY, USA
[4]Maxat Kulmanov, Fatima Zohra Smaili, Xin Gao, Robert Hoehndorf, Semantic similarity and machine learning with ontologies, Briefings in Bioinformatics, Volume 22, Issue 4, July 2021, bbaa199, https://doi.org/10.1093/bib/bbaa199
[5] Booshehri, Meisam, et al. « Introducing the Open Energy Ontology: Enhancing data interpretation and interfacing in energy systems analysis. » Energy and AI 5 (2021): 100074.

 

Profil et compétences

Etudiant BAC+5 en fin de cycle école d’ingénieur ou Master 2, dans le domaine de la science des données, IA, statistiques, mathématiques appliquées ou informatique avec une spécialisation en ingénierie des connaissances/TAL et une première expérience en deep learning.

Compétences :
• Bon niveau de maitrise du langage de programmation Python
• Des connaissances technologiques nécessaires pour la définition et la mise en oeuvre des outils de Machine Learning (scikitlearn, tensorflow, pytorch, spacy) ;
• Première expérience avec l’un des concepts, méthodes et algorithmes de construction, gestion et utilisation de connaissances (web sémantique, raisonnement, IA symbolique, …) ;
• Première expérience avec l’un des concepts, méthodes et algorithmes de Machine Learning, notamment les approches de Deep Learning ;
• Web sémantique : OWL, RDF, RDFS, SPARQL, SHACL

Aptitudes personnelles :
• Bon relationnel
• Curiosité, esprit d’initiative, capacité d’analyse et rigueur
• Avoir envie de travailler en collaboration
• Intérêt pour la recherche appliquée
• Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais)

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : à partir novembre 2022
Localisation du poste : Gif sur Yvette (91) – Site du Moulon
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2022-37-SMD.


Postuler à cette offre d’emploi


Mots-clés :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

et recevez chaque mois les dernières actualités de l'institut :