Contexte du stage
Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques. Vous serez encadré par un ingénieur-chercheur SystemX du domaine des Sciences des données et IA, au sein d’un projet de recherche exploratoire en collaboration avec Trinity College Dublin en Irlande et le DFKI en Allemagne.
Présentation du sujet
Les données cliniques sont longitudinales et multimodales : diagnostics, prescriptions et traitements médicaux, résultats biologiques, notes cliniques textuelles, données issues de capteurs, radiologies (imageries), etc. Ces données décrivent la trajectoire d’un patient au cours du temps (admissions, transferts, diagnostics, prescriptions, résultats biologiques, réadmissions et évolutions physiopathologiques). La richesse et l’hétérogénéité de ces données ouvrent des opportunités uniques pour la recherche médicale. Leur exploitation optimisée est en effet un gage d’amélioration du processus médical dans son ensemble. Toutefois, elles posent aussi des défis scientifiques. Ces données sont en effet hétérogènes, bruitées, asynchrones et souvent incomplètes, en particulier dans le cas des maladies rares. La plupart des travaux portent sur des données unimodales ou des séries restreintes, sans intégration multimodale cohérente. Or, la multimodalité offre de vraies opportunités dans ce contexte : les diagnostics apportent la sémantique clinique, les prescriptions décrivent la stratégie thérapeutique, les constantes vitales et résultats biologiques reflètent la dynamique physiologique, les notes cliniques contextualisent la prise de décision médicale, et les imageries médicales (scanner, IRM, radiologie) et les analyses biomédicales apportent des informations quantitatives cruciales pour l’interprétation et le suivi. Le projet au sein duquel sera effectué le stage vise à explorer des modèles génératifs probabilistes multimodaux capables d’apprendre une représentation latente commune de trajectoires complexes, et de générer des trajectoires synthétiques de patients cliniquement cohérentes. Plus précisément, la génération automatique de cohortes virtuelles de patients et de scénarios d’aide à la décision, s’appuiera sur des modèles à variables latentes ainsi que sur des modèles de fondation multimodaux pré-entraînés (GPAI) et adaptés (compacts et spécialisés). Cette approche permettra de contribuer en particulier à la modélisation des maladies rares, à l’augmentation de données et à la simulation de parcours thérapeutiques et de tester des modèles prédictifs en aval.
Missions du stage :
Les missions dans le cadre de ce stage sont la réalisation d’états de l’art et de développements scientifiques et techniques autour de plusieurs verrous scientifiques :
- Représentation multimodale hétérogène et temporelle. Les données cliniques combinent des modalités très différentes : variables continues (biologie, constantes), variables catégorielles (diagnostics, codes actes), textes libres (comptes rendus) et imagerie médicale. Ces modalités sont observées de manière irrégulière dans le temps. Le verrou est de construire une représentation latente unifiée, capable de capturer ces dépendances complexes sans perte d’information clinique
- Adaptation des modèles de fondation multimodaux. Les modèles génératifs existants produisent parfois des données cliniquement incohérentes (hallucinations). Le verrou est de contraindre la génération afin de garantir des trajectoires plausibles médicalement et respectant les règles implicites de la pratique clinique.
- Adaptation des modèles de fondation multimodaux. Les modèles de fondation actuels sont conçus pour de larges corpus génériques (texte, image, multimodalité). Le verrou est de les adapter et les spécialiser pour les trajectoires de patients, en intégrant une modélisation probabiliste, afin de capturer l’incertitude inhérente aux données de santé, hétérogènes, bruitées et souvent incomplètes, et une validation clinique, pour garantir que les trajectoires simulées soient médicalement plausibles et interprétables par des praticiens.
Objectif
Adapter des modèles de fondation multimodaux aux trajectoires patient : Étudier comment les modèles de fondation (pré-entraînés sur données générales ou biomédicales) peuvent être adaptés pour capturer la dynamique des trajectoires patient, en intégrant plusieurs modalités parmi diagnostics, prescriptions, biologie, imagerie et textes cliniques.
Approche envisagée
Une première piste méthodologique consistera à explorer l’approche des mélanges d’experts (Mixture of Experts – MoE) (eg. Shazeer et al., 2017) pour traiter l’hétérogénéité des données cliniques. Chaque modalité pourra être prise en charge par un expert spécialisé (par exemple un modèle pour le texte clinique, un autre pour les données tabulaires issues de EHR—electronic health records—dossiers médicaux électroniques, un autre pour l’imagerie médicale). Un mécanisme de gating combinera dynamiquement leurs contributions selon le profil du patient et la tâche (prédiction ou génération). Cette approche permettra d’activer uniquement les experts nécessaires, favorisant ainsi la frugalité computationnelle, la robustesse et une meilleure interprétabilité clinique des trajectoires simulées. Le cadre des MoE s’articule naturellement avec les modèles de fondation multimodaux-FM/GPAI (Bommasani et al., 2021). En combinant plusieurs FM compacts et spécialisés dans un cadre MoE, nous visons à rendre leur usage plus modulaire, efficace et adapté au contexte médical. Un travail sur données ouvertes (eg. MIMIC-III, eICU ou bases similaires) est envisagé pour initier et valider les étapes méthodologiques.
Livrables
- Rapport de stage,
- Codes sources des outils développés,
- Préparation d’une soumission à une conférence internationale selon les résultats obtenus
Références bibliographiques sur le sujet :
- Acosta, J. N., Falcone, G. J., Rajpurkar, P., Topol, E. J. (2022). Multimodal biomedical AI. Nature Medicine. https://doi.org/10.1038/s41591-022-01981-2
- Rajendran, S. et al. (2024). Learning across diverse biomedical data modalities and systems. Nature Biomedical Engineering. https://pmc.ncbi.nlm.nih.gov/articles/PMC10873158/
- Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F., Sun, J. (2017). Generating Multi-label Discrete Patient Records using GANs. Proceedings of MLHC. https://proceedings.mlr.press/v68/choi17a/choi17a.pdf
- Esteban, C., Hyland, S. L., Rätsch, G. (2017). Real-valued (Medical) Time Series Generation with Recurrent Conditional GANs. arXiv:1706.02633. https://arxiv.org/abs/1706.02633
- Kingma, D. P., Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR. https://arxiv.org/abs/1312.6114
- Yuan, H., Zhou, S., Yu, S. (2023). EHRDiff: Exploring Realistic EHR Synthesis with Diffusion Models. arXiv:2303.05656. https://arxiv.org/abs/2303.05656
- Girin, L., Leglaive, S., Bie, X., Diard, J., Hueber, T., Alameda-Pineda, X. (2020). Dynamical Variational Autoencoders: A Comprehensive Review. arXiv:2008.12595. https://arxiv.org/abs/2008.12595
- Rajkomar, A. et al. (2018). Scalable and accurate deep learning with electronic health records. NPJ Digital Medicine, 1, 18. https://pmc.ncbi.nlm.nih.gov/articles/PMC6550175/
- Rezende, D. J., Mohamed, S. (2015). Variational Inference with Normalizing Flows. ICML. https://proceedings.mlr.press/v37/rezende15.pdf
- Han, X. et al. (2024). EHR-D3PM: Discrete Denoising Diffusion for Electronic Health Records Generation. ICLR 2024. https://arxiv.org/abs/2404.12314
- Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv:1701.06538. https://arxiv.org/abs/1701.06538
- Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258. https://arxiv.org/abs/2108.07258
- Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, L., Wang, W., Chen, W. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR. https://arxiv.org/abs/2106.09685
- Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H., Liu, T.-Y. (2022). BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining. arXiv:2210.10341. https://arxiv.org/abs/2210.10341
- Wang, Z., Wu, Z., Agarwal, D., Sun, J. (2022). MedCLIP: Contrastive Learning from Unpaired Medical Images and Text. arXiv:2210.10163. https://arxiv.org/abs/2210.10163
- Chamroukhi, F., Pham, N. T., Hoang, V. H., McLachlan, G. J. (2024). Functional mixtures-of-experts. Statistics and Computing, 34, 98. https://link.springer.com/article/10.1007/s11222-023-10379-0
Profil et compétences
Formation bac +5 avec une spécialisation en informatique (Master 2 ou équivalent ou 5eme année d’études en école d’ingénieurs) ou bac +3/4 (License ou équivalent ou 3eme année d’études en école d’ingénieurs).
Compétences souhaitées :
- Être actuellement inscrit en Master 2 ou en troisième année de cycle ingénieur en Informatique ou en Mathématiques Appliquée/Statistique avec un intérêt avéré pour la recherche ;
- Très bonnes connaissances théoriques en Machine Learning, en Statistiques, et en Optimisation ;
- Très bonnes compétences en programmation Python ;
- Des connaissances en IA générative ;
Merci de joindre CV, lettre de motivation, relevé de notes des deux dernières années d’étude de Master ou de cycle ingénieur et une lettre de recommandation dans un seul fichier .pdf si possible.
Informations clés
Durée du stage : 6 mois
Date de démarrage envisagée : fevrier 2026
Localisation du poste : Palaiseau (91)
Gratification : 1200 € net mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2026-06-EXPLO
Postuler à cette offre d’emploi
Merci de joindre CV, lettre de motivation, relevé de notes et autres documents utiles comme une lettre de recommandations.
Domaine :
Science des données et IA




