Application du chiffrement homomorphe à l’apprentissage machine pour assurer la confidentialité des données
Published in UQAM, 2020
Cette thèse aura lieu dans le cadre du projet DEEL et portera sur l’utilisation du chiffrement homomorphe afin de faire avancer les connaissances en apprentissage machine équivoque (sur des données privées/confidentielles).
Un schéma de chiffrement homomorphe (HE) [10] permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées de telle manière à ce que l’entité effectuant le calcul (ex : un fournisseur de ressources de calcul) n’apprenne aucune information sur les données d’entrée ou même la sortie du calcul. De pure vue de l’esprit pendant une trentaine d’années, le HE est devenu ces dernières années, en partie notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique [2], même si sa performance en termes de temps de calcul n’est pas encore satisfaisante pour permettre un déploiement à très large échelle. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des technologies d’amélioration du respect de la vie privée [1].
Poussé par le succès du chiffrement homomorphe, la cryptographie basée sur les réseaux a fait récemment de grande avancées, tant en terme de nouveaux schémas de chiffrement partiellement ou complètement homomorphe, qu’au niveau de applicabilité et son efficacité. On dispose par exemple maintenant de schémas dédiés aux données encodées en binaire (ex : TFHE [8] qui est complète- ment homomorphe et permet donc de construire des circuits booléens arbitraires) ou aux calculs en virgule fixe (ex : CKKS [6] qui permet de contrôler le débordement du bruit du aux opérations homomorphes). Il s’agit toutefois d’outils encore complexes à utiliser, maitriser et paramétrer. De plus, comme il s’agit d’un sujet très actif la cryptographie continue d’avancer en direction de schémas de chiffrement plus efficaces et compacts [9]. Par exemple, [7] ont proposé une solution efficace pour comparer des nombres chiffrés avec le schéma CKKS alors qu’auparavant, les constructions efficaces de comparaison (<,>,min, max) se basaient sur une représentation binaire des nombres et des circuits d’évaluation booléens et avaient en conséquence un coût important, tant en espace qu’en temps de calcul. Ces nouveaux résultats ouvrent de nouvelles perspectives très prometteuses pour calculer un argmax de façon privée par exemple.
Il est indéniable que l’apprentissage machine est à l’heure actuelle un des sujets les plus chauds de l’informatique. Cependant comme les algorithmes d’apprentissage sont en général entraînés sur des grandes masses de données personnelles, les questions de sécurité et de protection des données sont essentielles dans ce domaine et pourtant la recherche sur comment intégrer la confidentialité des données en apprentissage machine en est à ses balbutiements. Les questions de recherche à résoudre sont ici très nombreuses [15], comme par exemple peut-on : apprendre un modèle sur des données chiffrées de manière efficace [5], interroger un modèle avec des requêtes chiffrées [3 ,12], limiter l’information qui risque de transpirer sur les données d’entraînement ou sur le modèle lui- même [14], etc. ? Toutes ces questions sont loins d’être résolues et les questions ouvertes sont encore très nombreuses.
Malgré des réserves justifiées quant à ses performances, l’apprentissage machine homomorphe (apprendre sur des données privées ou utiliser un modèle public aux paramètres privés) est une piste intéressante. Dans cette direction, l’objectif premier de cette thèse sera de développer une boite à outil de calcul homomorphe pour la construction d’algorithmes d’apprentissage machine sur des données chiffrées, possiblement en adaptant des schémas homomorphes existants ou en développement de nouvelles approches à ce problème se basant sur le chiffrement homomorphe. Un exemple de scénario applicatif est le suivant : un client veut délocaliser une tâche d’apprentissage (ex : une classification binaire), sans dévoiler ni les données d’apprentissage, ni les données de test, ni même le modèle appris. Dans un premier temps, on s’intéressera dans le cadre de cette thèse à des algorithmes d’apprentissages simples, comme des réseaux de neurones [18, 13], des arbres de décision ou réseaux Bayésiens 17 et régression logistique [4, 15]. On s’intéressera ensuite à des applications distribués de type apprentissage fédéré [11]. Quelque soit le contexte considéré une partie importante du travail portera sur la définition et modélisation du modèle d’adversaire s’appliquant au contexte considéré.
[1] Aguilar-Melchor, C., Barrier*, J., Fousse, L., and Killijian, M. XPIR : Private information retrieval for everyone. PoPETs 2016, 2 (2016), 155–174.
[2] Aguilar-Melchor, C., Barrier*, J., Guelton, S., Guinet, A., Killijian, M., and Lepoint, T. NFLlib : NTT-based fast lattice library.
[3] Bost, R., Popa, R. A., Tu, S., and Goldwasser, S. Machine learning classification over encrypted data. In 22nd Annual Network and Distributed System Security Symposium, NDSS 2015, San Diego, California, USA, February 8-11, 2015 (2015), The Internet Society.
[4] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. Logistic regression over encrypted data from fully homomorphic encryption. BMC medical genomics 11, 4 (2018), 81.
[5] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. E. Logistic regression over encrypted data from fully homomorphic encryption. IACR Cryptology ePrint Archive 2018 (2018), 462.
[6] Cheon, J. H., Kim, A., Kim, M., and Song, Y. Homomorphic encryption for arithmetic of approximate numbers. In Advances in Cryptology – ASIACRYPT 2017 (Cham, 2017), T. Takagi and T. Peyrin, Eds., Springer International Publishing, pp. 409–437.
[7] Cheon, J. H., Kim, D., Kim, D., Lee, H. H., and Lee, K. Numerical method for comparison on homomorphically encrypted numbers. Cryptology ePrint Archive, Report 2019/417, 2019. [https://eprint.iacr.org/2019/417]
[8] Chillotti, I., Gama, N., Georgieva, M., and Izabachène, M. TFHE : fast fully homo- morphic encryption over the torus. IACR Cryptology ePrint Archive 2018 (2018), 421.
[9] Esgin, M. F., Steinfeld, R., Liu, J. K., and Liu, D. Lattice-based zero-knowledge proofs : New techniques for shorter and faster constructions and applications. Cryptology ePrint Ar- chive, Report 2019/445, 2019. [https://eprint.iacr.org/2019/445]
[10] Gentry, C., et al. Fully homomorphic encryption using ideal lattices. In Stoc (2009), vol. 9, pp. 169–178.
[11] Hardy, S., Henecka, W., Ivey-Law, H., Nock, R., Patrini, G., Smith, G., and Thorne, B. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption. CoRR abs/1711.10677 (2017).
[12] Hesamifard, E., Takabi, H., and Ghasemi, M. Deep neural networks classification over encrypted data. In Proceedings of the Ninth ACM Conference on Data and Application Security and Privacy (New York, NY, USA, 2019), CODASPY ’19, ACM, pp. 97–108.
[13] Izabachène, M., Sirdey, R., and Zuber, M. Practical fully homomorphic encryption for fully masked neural networks. In Cryptology and Network Security (Cham, 2019), Y. Mu, R. H. Deng, and X. Huang, Eds., Springer International Publishing, pp. 24–36.
[14] Jagielski, M., Carlini, N., Berthelot, D., Kurakin, A., and Papernot, N. High- fidelity extraction of neural network models, 2019.
[15] Kim, M., Song, Y., Wang, S., Xia, Y., and Jiang, X. Secure logistic regression based on homomorphic encryption : Design and evaluation. JMIR Med Inform 6, 2 (Apr 2018), e19.
[16] Papernot, N. A marauder’s map of security and privacy in machine learning. Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security - AISec ’18 (2018).
[17] Sun, X., Zhang, P., Liu, J. K., Yu, J., and Xie, W. Private machine learning classification based on fully homomorphic encryption. IEEE Transactions on Emerging Topics in Computing (2018), 1–1.
[18] Zuber, M., Carpov, S., and Sirdey, R. Towards real-time hidden speaker recognition by means of fully homomorphic encryption. Cryptology ePrint Archive, Report 2019/976, 2019. [https://eprint.iacr.org/2019/976]