Contexte du stage
.Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques. Vous serez co-encadré par un ingénieur-chercheur SystemX du domaine Science des données, IA et par une professeure du laboratoire LTCI de Télécom Paris. Une poursuite en thèse est envisagée.Vous travaillerez au sein du projet SystemX « Confiance dans les Systèmes à base d’IA » (CSIA) dont les partenaires industriels sont Thalès, Safran, Sopra Steria, Naval Group et les partenaires académiques Télécom Paris – Institut Polytechnique de Paris et ONERA. Le poste est basé à l’IRT SystemX en partenariat avec Télécom Paris (Palaiseau).
Présentation du sujet
Objectifs du stage
La modélisation générative de molécules sous contraintes constitue un enjeu majeur pour résoudre des problèmes inverses et de transport en biologie computationnelle. Récemment, des approches où la modélisation est conduite par des processus génératifs se sont révélées capables d’intégrer efficacement des contraintes de différentes types (physiques, géométriques, chimiques ou expertes), ce qui rend ces méthodes particulièrement prometteuses pour des applications à l’échelle industrielle. Ce stage propose d’explorer comment différentes contraintes influencent le design et les performances de ces approches pour différentes tâches en biologie computationnelle ou dans d’autres domaines des sciences naturelles Parmi les approches génératives, deux approches seront abordées. D’une part, les processus de type Flow Matching [1] permettent de modéliser des trajectoires continues et d’intégrer naturellement des contraintes géométriques, tandis que les Schrödinger Bridges [2] offrent un cadre théorique rigoureux lié au problème du transport optimal dynamique. Elles sont ainsi bien adaptées à la translation de distributions non appariées sous contraintes. Par ailleurs, ces processus génératifs s’avèrent être facilement employables comme modèles pré-entrainés. Différentes stratégies d’adaptation, certaines inspirées de l’optimisation sous contraintes, permettent de les appliquer à des cas d’usage industriels sans nécessiter de réentraînement coûteux, tout en conservant des garanties quant à l’intégration des diverses contraintes et dont l’évaluation est adaptée aux besoins spécifiques du contexte industriel. Cependant, l’impact comparé de contraintes variées sur la conception et les performances (selon la typologie du cas d’usage) de ces modèles reste peu étudié. Ce stage vise à combler cette lacune en exploitant divers jeux de données de molécules/protéines afin d’évaluer comment ces contraintes modifient la qualité, la diversité et le réalisme des données structurées générées. Finalement, la problématique du stage peut se reformuler en : comment l’intégration de contraintes variées influence-t-elle le design et les performances des processus génératifs récents pour la génération de données structurées ?
Missions
Pour adresser cette problématique, l’étudiant(e) sera amené(e) à réaliser un état de l’art autour de ces nouvelles approches en comparant rigoureusement leurs forces et faiblesses par rapport à la tâche spécifiée. Ensuite, il s’agira de proposer de nouvelles techniques d’adaptation, fondées sur des bases scientifiques solides, afin de mieux répondre à un ensemble bien identifié de contraintes de sorte à garantir les propriétés nécessaires, relativement au cadre applicatif identifié. Le stage sera co-encadré par Martin Gonzalez à l’IRT SystemX et par Florence D’alché-Buc, directrice du laboratoire LTCI Télécom, où l’étudiant(e) aura l’opportunité d’interagir avec une équipe de chercheurs dans le domaine, de présenter ses travaux et de contribuer activement à d’éventuelles publications scientifiques. Une poursuite en thèse pourrait être envisagée à l’issue du stage.
Références bibliographiques
[1] Chen, R.T. and Lipman, Y., Flow Matching on General Geometries. In International Conference on Learning Representations (2024).
[2] De Bortoli, V., Korshunova, I., Mnih, A. and Doucet, A., Schrodinger bridge flow for unpaired data translation. In Advances in Neural Information Processing Systems (2024).
[3] Campbell, A., Yim, J., Barzilay, R., Rainforth, T. and Jaakkola, T., Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design. In International Conference on Machine Learning (2025).
[4] Marion, P., Korba, A., Bartlett, P., Blondel, M., De Bortoli, V., Doucet, A., Llinares-López, F., Paquette, C. and Berthet, Q., Implicit Diffusion: Efficient optimization through stochastic sampling. In International Conference on Artificial Intelligence and Statistics (2025).
[5] Krzakala, P., Melo, G., Laclau, C., d’Alché-Buc, F. & Flamary, R., The quest for the GRAph Level autoEncoder (GRALE). arXiv preprint arXiv:2505.22109.
[6] Kim, J.H., Kim, S., Moon, S., Kim, H., Woo, J. and Kim, W.Y., Discrete Diffusion Schrödinger Bridge Matching for Graph Transformation. In International Conference of Learning Representations (2025).
[7] Eijkelboom, F., Zimmermann, H., Vadgama, S., Bekkers, E.J., Welling, M., Naesseth, C.A. and van de Meent, J.W., Controlled Generation with Equivariant Variational Flow Matching. In International Conference on Machine Learning (2025).
Profil et compétences
Formation : en cours de 2e année de Master, dans le domaine des Mathématiques appliquées à l’apprentissage automatique et la vision par ordinateur.
Compétences souhaitées :
- Connaissance de techniques récentes liées à des modèles génératifs tels que VAEs, Diffusion Models, Flow Matching ;
- Formation solide en mathématiques appliquées, en particulier en théorie du transport optimal, analyse d’équations différentielles, et analyse stochastique ;
- Expérience en traitement de données structurées – en particulier de graphes.
Aptitudes personnelles :
- Esprit de recherche – projection de continuation en thèse de doctorat ;
- Dynamisme et travail en équipe ;
- Attirance pour un travail scientifique théorique.
Merci de joindre CV, lettre de motivation, relevé de notes et autres documents utiles comme une lettre de recommandations.
Informations clés
Durée du stage : 6 mois
Date de démarrage envisagée : fevrier 2026
Localisation du poste : Palaiseau (91)
Gratification : 1200 € net mensuel
Référence de l’offre à mentionner dans l’objet de votre e-mail de candidature : STAGE-2026-18-CSIA
Postuler à cette offre d’emploi
Merci de joindre CV, lettre de motivation, relevé de notes et autres documents utiles comme une lettre de recommandations.
Domaine :
 
                    



