Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.
Vous serez encadré par un ingénieur-chercheur SystemX du domaine Interaction, Usage et Connaissances.
Vous travaillerez au sein du projet SMD dont les partenaires industriels sont Airbus Defense and Space Secure Land communications, Apsys, Ecosys, EDF, RTE et les partenaires académiques CentraleSupélec et l’Université Paris-Saclay.

Présentation du sujet

 

Objectifs 

GPT4 d’OpenAI est un modèle génératif flexible qui peut effectuer un large éventail de tâches complexes grâce à sa compréhension du langage naturel et ses connaissances pré-entraînées. Plus globalement, les LLMs (Large Language Model) ont démontré des performances impressionnantes en condition « few shots » (apprentissage sur peu de données) sur de nombreuses tâches de NLP (Natural Language Processing). Cependant, ils ont encore du mal à générer de manière fiable des structures de sortie respectant certaines contraintes grammaticales [1]. Cette limitation vient du fait que les LLM, sans mise au point, ont tendance à générer du texte libre plutôt que des structures suivant précisément une grammaire spécifique. De récents travaux s’intéressent à dépasser cette limitation [2] et à proposer d’autres contraintes comme le respect de séquences sémantiques [3] qui est nécessaire pour des cas d’application ayant recours à des graphes de connaissance [4].

L’objectif de ce stage est d’étudier plusieurs méthodes de l’état de l’art et de mettre en œuvre une méthode de génération de texte sous contraintes (grammaire et sémantique) adaptée à des cas d’usage de reformulation d’exigence en ingénierie et de génération de documents techniques à partir de graphes de connaissance.

Le stage s’intègre dans le projet SMD qui vise à hybrider l’IA symbolique et apprentissage automatique pour construire et exploiter des connaissances sur des données hétérogènes multi-sources, afin de favoriser l’aide à la décision en environnement statique ou dynamique.

Missions

  • Réaliser l’état de l’art sur les approches de génération automatique de texte sous contraintes
  • Identifier les librairies et outils existants afin de mettre en œuvre une approche adaptée aux besoins du projet SMD
  • Evaluer l’efficacité de l’approche proposée sur des données de benchmark et des données réelles
  • Contribuer à présenter et publier les résultats des travaux en conférence

Références

[1] Geng, S., Josifosky, M., Peyrard, M., & West, R. (2023). Flexible Grammar-Based Constrained Decoding for Language Models. arXiv preprint arXiv:2305.13971.

[2] Li, Y., Cui, L., Yan, J., Yin, Y., Bi, W., Shi, S., & Zhang, Y. (2023). Explicit Syntactic Guidance for Neural Text Generation. arXiv preprint arXiv:2306.11485.

[3] Liu, J., Fan, C., Zhou, F., & Xu, H. (2022). Syntax Controlled Knowledge Graph-to-Text Generation with Order and Semantic Consistency. arXiv preprint arXiv:2207.00719.

[4] Axelsson, A., & Skantze, G. (2023). Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs. arXiv preprint arXiv:2307.07312.

Profil et compétences

De formation : BAC +5 / école d’ingénieur ou université Master 2, dans le domaine de la science des données, IA, mathématiques appliquées ou informatique avec une spécialisation en ingénierie des connaissances/Traitement Automatique des Langues (TAL) et une première expérience en deep learning.

Compétences :

  • Bon niveau de maitrise du langage de programmation Python
  • Connaissances technologiques nécessaires à la définition et la mise en œuvre des outils de NLP (tensorflow, pytorch, spacy)
  • Première expérience avec les algorithmes LLMs
  • Des connaissances en Web sémantique seraient un plus (OWL, RDF, RDFS, SPARQL, SHACL)

Aptitudes personnelles :

  • Bon relationnel
  • Curiosité, esprit d’initiative, capacité d’analyse et rigueur
  • Avoir envie de travailler en collaboration
  • Intérêt pour la recherche appliquée
  • Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais)

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : mars 2024
Localisation du poste : Gif-sur-Yvette (91)
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR -2024-17-SMD


Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.


Domaine :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

 et recevez chaque mois les dernières actualités de l'institut :