Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.  
Vous serez encadré par un ingénieur-chercheur SystemX du domaine Sécurité numérique. 
Vous travaillerez au sein du projet de recherche franco-allemand AUtomotive data-Tainting fOr Privacy aSsurance sYstem (AUTOPSY) dont les partenaires industriels sont Continental Teves AG & Co. oHG et FAAR Industry, et les partenaires académiques l’Université de Bourgogne Franche-Comté et le Fraunhofer Institute for Applied and Integrated Security. 

Objectifs

A l’ère actuelle de l’intelligence artificielle (IA), les données apparaissent comme la pierre angulaire de la plupart des avancées scientifiques et technologiques et de leur bon fonctionnement. Cependant, la protection de la confidentialité des données sensibles (données personnelles ou données critiques) est devenue un défi majeur : on peut être intéressé pour communiquer à un grand nombre de personnes un modèle d’IA sans pour autant souhaiter partager les données utilisées lors de la phase d’apprentissage, y compris aux ingénieurs en charge de mettre au point le modèle.  
Les méthodes de chiffrement avancées telles que le chiffrement homomorphe [1] ont été proposées comme solution, mais elles présentent des inconvénients majeurs. Elles ne sont pas toujours évolutives lorsqu’il s’agit de traiter de grandes quantités de données en raison des coûts d’exécution élevés, et elles nécessitent un encodage homomorphe spécifique des données considérées pour chaque modèle d’entraînement. 
Une approche innovante consiste à autoriser l’accès aux données de manière contrôlée et en limitant la quantité d’informations divulguées. Cette méthode repose sur l’utilisation de la confidentialité différentielle [2], une technique qui garantit formellement l’impossibilité d’extraire des informations spécifiques sur chaque enregistrement de la base de données. On ne peut apprendre que des informations générales sur l’ensemble des données, telles que la distribution des valeurs de certains attributs, la moyenne, etc. 
Un scénario type se dessine où un propriétaire de données cherche à exploiter les algorithmes d’apprentissage automatique pour améliorer sa stratégie d’entreprise. Pour cela ce propriétaire de données confie à une entreprise tierce le choix des meilleures techniques d’intelligence artificielle, mais au cours de ce travail, la confidentialité des données doit être préservée tout en garantissant le respect des normes de sécurité les plus strictes, conformément à l’éthique et à la législation en vigueur. 

Missions

Ce stage a pour objectif d’étudier et de développer l’utilisation de la confidentialité différentielle pour résoudre le problème de la confidentialité des données, tout en permettant à des entités externes de déterminer la meilleure méthode d’apprentissage automatique ainsi que la meilleure mise en œuvre de ces techniques à adopter. Les missions principales incluront : 

  • Comprendre les principes fondamentaux de la confidentialité différentielle et ses applications dans le domaine de la protection des données. 
  • Évaluer les techniques existantes de confidentialité différentielle et les adapter aux besoins spécifiques du cas d’usage évoqué antérieurement. 
  • Développer des mécanismes de requête sécurisés pour permettre aux tiers d’accéder aux données tout en préservant leur confidentialité. 
  • Tester et évaluer la performance des solutions mises en place. 
  • Rédiger un article scientifique décrivant les résultats de la recherche menée pendant le stage, en vue d’une soumission à une conférence ou à une revue. 

Références bibliographiques
[1] A. Akavia et al. (2022) Privacy-preserving decision trees training and prediction, dl.acm.org, vol. 25, no. 1, p. 24, doi: 10.1145/3517197. 
[2] Z. Ji, Z. C. Lipton, and C. Elkan (2014) Differential Privacy and Machine Learning: a Survey and Review. [Online].  

Profil et compétences

De formation : BAC +5 / école d’ingénieur ou université master 2, dans le domaine de la sécurité numérique, cryptographie.  

Compétences:  

  • Bonne connaissance sur la confidentialité des données. 
  • Connaissance de base en apprentissage automatique. 
  • Programmation Python 

Aptitudes personnelles: 

  • Bon relationnel
  • Avoir envie de travailler en collaboration. 
  • Curiosité et esprit d’innovation 
  • Bonnes compétences en communication et en rédaction

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : février 2024
Localisation du poste : Palaiseau (91)
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-202426Autopsy


Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.


Domaine :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

 et recevez chaque mois les dernières actualités de l'institut :