Confidentialité différentielle pour la sécurité et la protection de la vie-privée en-ligne

Published in UQAM, 2021

Contexte

Le monde d’aujourd’hui qui fait face à une explosion de la quantité de données générées, et collectées. Ce dernier point n’a échappé à personne et l’engouement pour l’intelligence artificielle y contribue largement. Malheureusement les thématiques non-fonctionnelles que sont la sécurité et vie privée sont trop souvent laissées de côté. Pourtant, il est essentiel de trouver un compromis entre protection et utilisation des données personnelles, utilité et confidentialité des modèles. En effet, la société et les individus qui la composent ont tout à gagner à une utilisation respectueuse des données individuelles : meilleurs services, investissements sociétaux plus efficaces, vie privée et démocratie protégées. Le sujet présenté ici repose sur l’usage de techniques de confidentialité différentielle pour répondre à ces enjeux et cherche à appliquer ces avancées à l’apprentissage machine.

Apprentissage machine

Il est indéniable que l’apprentissage machine est à l’heure actuelle un des sujets les plus chauds de l’informatique. Cependant comme les algorithmes d’apprentissage sont en général entraînés sur des grandes masses de données personnelles, les questions de sécurité et de protection des données sont essentielles dans ce domaine et pourtant la recherche sur comment intégrer la confidentialité des données en apprentissage machine en est à ses balbutiements. Les questions de recherche à résoudre sont ici très nombreuses [15], comme par exemple peut-on : apprendre un modèle sur des données chiffrées de manière efficace [5], interroger un modèle avec des requêtes chiffrées [3 ,12], limiter l’information qui risque de transpirer sur les données d’entraînement ou sur le modèle lui- même [14], etc. ? Toutes ces questions sont loins d’être résolues et les questions ouvertes sont encore très nombreuses.

Cryptographie, Sécurité et Confidentialité

Un schéma de chiffrement homomorphe (HE) permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées. De pure vue de l’esprit, le HE est devenu, ces dernières années, grâce notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique, même si son efficacité en terme de temps de calcul n’est pas encore satisfaisante. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des mécanismes pour la protection de la vie privée.

Les techniques du calcul multipartite sécuritaire (MPC) reposent quant à elles sur l’utilisation d’outils cryptographiques (tels que le partage de clé secrète, les transferts inconscients, ou encore du HE). Le principe sous-jacent est que plusieurs participants calculent une fonction de leurs entrées secrètes et n’en apprennent que le résultat. Le MPC est également utile pour construire des primitives de protection de la vie privée.

La confidentialité différentielle (DP), quant à elle, est un modèle de vie privée qui propose une métrique qui mesure l’anonymisation de données ainsi que des mécanismes qui permettent d’introduire du bruit dans les données, et ce afin d’atteindre un certain niveau de cette métrique. Jusqu’à il y a peu de temps, cette technique a été essentiellement réservée aux bases de données, afin d’empêcher les attaques de ré-identification, mais son utilisation dans le cadre de mécanismes de protection en-ligne commence à être envisagée.

Objectifs de la Maitrise

Ces techniques sont à la pointe de la recherche actuelle en protection de la vie privée. La DP n’a pourtant, dans la pratique, que peu été utilisée en dehors des grandes bases de données, or il s’agit d’un outil qui peut s’avérer très pratique pour la conception de mécanismes de protection en ligne ainsi que dans le cadre de l’apprentissage machine. Dans cette maitrise, il s’agit donc d’étudier, de développer et d’appliquer la confidentialité différentielle, potentiellement en conjonction avec le chiffrement homomorphe et le calcul multipartite sécuritaire, afin de lever les verrous de sécurité et de protection de la vie privée en général dans les services en ligne, mais aussi dans le contexte particulier de l’apprentissage machine.

Contact

Me contacter (killijian.marc-olivier.2@uqam.ca) par courriel pour discuter de ce sujet et de vos intérêts.