Confidentialité différentielle pour la sécurité et la protection de la vie-privée en-ligne
Published in UQAM, 2021
Contexte
Le monde d’aujourd’hui qui fait face à une explosion de la quantité de données générées, et collectées. Ce dernier point n’a échappé à personne et l’engouement pour l’intelligence artificielle y contribue largement. Malheureusement les thématiques non-fonctionnelles que sont la sécurité et vie privée sont trop souvent laissées de côté. Pourtant, il est essentiel de trouver un compromis entre protection et utilisation des données personnelles, utilité et confidentialité des modèles. En effet, la société et les individus qui la composent ont tout à gagner à une utilisation respectueuse des données individuelles : meilleurs services, investissements sociétaux plus efficaces, vie privée et démocratie protégées. Le sujet présenté ici repose sur l’usage de techniques de confidentialité différentielle pour répondre à ces enjeux et cherche à appliquer ces avancées à l’apprentissage machine.
Apprentissage machine
Il est indéniable que l’apprentissage machine est à l’heure actuelle un des sujets les plus chauds de l’informatique. Cependant comme les algorithmes d’apprentissage sont en général entraînés sur des grandes masses de données personnelles, les questions de sécurité et de protection des données sont essentielles dans ce domaine et pourtant la recherche sur comment intégrer la confidentialité des données en apprentissage machine en est à ses balbutiements. Les questions de recherche à résoudre sont ici très nombreuses [15], comme par exemple peut-on : apprendre un modèle sur des données chiffrées de manière efficace [5], interroger un modèle avec des requêtes chiffrées [3 ,12], limiter l’information qui risque de transpirer sur les données d’entraînement ou sur le modèle lui- même [14], etc. ? Toutes ces questions sont loins d’être résolues et les questions ouvertes sont encore très nombreuses.
Cryptographie, Sécurité et Confidentialité
Un schéma de chiffrement homomorphe (HE) permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées. De pure vue de l’esprit, le HE est devenu, ces dernières années, grâce notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique, même si son efficacité en terme de temps de calcul n’est pas encore satisfaisante. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des mécanismes pour la protection de la vie privée.
Les techniques du calcul multipartite sécuritaire (MPC) reposent quant à elles sur l’utilisation d’outils cryptographiques (tels que le partage de clé secrète, les transferts inconscients, ou encore du HE). Le principe sous-jacent est que plusieurs participants calculent une fonction de leurs entrées secrètes et n’en apprennent que le résultat. Le MPC est également utile pour construire des primitives de protection de la vie privée.
La confidentialité différentielle (DP), quant à elle, est un modèle de vie privée qui propose une métrique qui mesure l’anonymisation de données ainsi que des mécanismes qui permettent d’introduire du bruit dans les données, et ce afin d’atteindre un certain niveau de cette métrique. Jusqu’à il y a peu de temps, cette technique a été essentiellement réservée aux bases de données, afin d’empêcher les attaques de ré-identification, mais son utilisation dans le cadre de mécanismes de protection en-ligne commence à être envisagée.
Objectifs de la Maitrise
Ces techniques sont à la pointe de la recherche actuelle en protection de la vie privée. La DP n’a pourtant, dans la pratique, que peu été utilisée en dehors des grandes bases de données, or il s’agit d’un outil qui peut s’avérer très pratique pour la conception de mécanismes de protection en ligne ainsi que dans le cadre de l’apprentissage machine. Dans cette maitrise, il s’agit donc d’étudier, de développer et d’appliquer la confidentialité différentielle, potentiellement en conjonction avec le chiffrement homomorphe et le calcul multipartite sécuritaire, afin de lever les verrous de sécurité et de protection de la vie privée en général dans les services en ligne, mais aussi dans le contexte particulier de l’apprentissage machine.
Contact
Me contacter (killijian.marc-olivier.2@uqam.ca) par courriel pour discuter de ce sujet et de vos intérêts.