IMM

Intégration Multimédia Multilingue

Défis

Le projet IMM s’inscrit dans le contexte de l’accroissement des données produites et diffusées dans le monde avec une volumétrie qui double tous les ans. Le projet doit répondre au besoin de développement d’outils pour assister le praticien de la veille à extraire du flux de données non structurées (principalement texte et audio), la connaissance qui lui est utile à un moment donné pour produire un rapport ou prendre une décision.

Objectifs

  • Plateforme et prototype d’application de veille

Le premier objectif consiste en la mise en place d’une plateforme de test, de développement et d’évaluation pour des composants et des applications dédiés à l’analyse de contenus multimédia et multilingues apportés par les partenaires (extraction d’information, transcription de la parole, traduction, recherche d’information, analyse de graphes).

  • Adaptation à une langue nouvelle et en particulier une langue peu dotée

Afin de pouvoir mettre en place et évaluer la chaîne complète des traitements, les différents composants de la plateforme devront savoir traiter des données dans différentes langues (obligatoirement le français, l’anglais, et l’arabe et de façon optionnelle le russe, le chinois, et le persan).

  • Résistance au bruit et adaptation de la chaîne de traitement au style du document

L’objectif est d’étudier le processus de constitution de ressources à partir de corpus pour adapter un système à un style spécifique. C’est un élément structurant du projet qui permettra d’assurer la robustesse des modèles au bruit et aux variations de style. Le système doit adapter les traitements selon les propriétés et les caractéristiques  saillantes des documents analysés.

  • Extraction d’information avancée

L’amélioration de la qualité de l’analyse des documents unitaires et de l’extraction d’information sémantiques de base comme les entités nommées doit servir des fonctions de plus haut niveau comme l’extraction de faits de documents hétérogènes, la navigation dans des résultats de recherche d’information.

Marchés visés

Les études à mener porteront notamment sur le passage à l’échelle, la prise en compte d’informations multiples sur les liens et les noeuds du réseau, la prise en compte de son aspect dynamique et le développement d’outils de visualisation adaptés à des réseaux de grande dimension. Les domaines d’exploitation visés sont la gestion de crise, la cybersécurité et la veille stratégique.

Thèses encadrées dans le cadre du projet

  • Real-Time analysis of diffusion processes on large scale social networks
  • Towards coherent probabilistic knowledge bases (EDIPS / CNRS)

Documents à télécharger

Terminé
Internet de confiance
Partenaires industriels
Bertin IT Capgemini EXALEAD Ministère de la Défense OVH.com Systran Temis Vecsys Vocapia Research
Partenaires académiques
CEA Inria LNE Université Pierre et Marie Curie (UPMC)
Chef de projet
Olivier Mesnard
olivier.mesnard[at]irt-systemx.fr