Application du chiffrement homomorphe à l’apprentissage machine pour assurer la confidentialité des données

Published in UQAM, 2020

Cette thèse aura lieu dans le cadre du projet DEEL et portera sur l’utilisation du chiffrement homomorphe afin de faire avancer les connaissances en apprentissage machine équivoque (sur des données privées/confidentielles).

Un schéma de chiffrement homomorphe (HE) [10] permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées de telle manière à ce que l’entité effectuant le calcul (ex : un fournisseur de ressources de calcul) n’apprenne aucune information sur les données d’entrée ou même la sortie du calcul. De pure vue de l’esprit pendant une trentaine d’années, le HE est devenu ces dernières années, en partie notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique [2], même si sa performance en termes de temps de calcul n’est pas encore satisfaisante pour permettre un déploiement à très large échelle. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des technologies d’amélioration du respect de la vie privée [1].

Poussé par le succès du chiffrement homomorphe, la cryptographie basée sur les réseaux a fait récemment de grande avancées, tant en terme de nouveaux schémas de chiffrement partiellement ou complètement homomorphe, qu’au niveau de applicabilité et son efficacité. On dispose par exemple maintenant de schémas dédiés aux données encodées en binaire (ex : TFHE [8] qui est complète- ment homomorphe et permet donc de construire des circuits booléens arbitraires) ou aux calculs en virgule fixe (ex : CKKS [6] qui permet de contrôler le débordement du bruit du aux opérations homomorphes). Il s’agit toutefois d’outils encore complexes à utiliser, maitriser et paramétrer. De plus, comme il s’agit d’un sujet très actif la cryptographie continue d’avancer en direction de schémas de chiffrement plus efficaces et compacts [9]. Par exemple, [7] ont proposé une solution efficace pour comparer des nombres chiffrés avec le schéma CKKS alors qu’auparavant, les constructions efficaces de comparaison (<,>,min, max) se basaient sur une représentation binaire des nombres et des circuits d’évaluation booléens et avaient en conséquence un coût important, tant en espace qu’en temps de calcul. Ces nouveaux résultats ouvrent de nouvelles perspectives très prometteuses pour calculer un argmax de façon privée par exemple.

Il est indéniable que l’apprentissage machine est à l’heure actuelle un des sujets les plus chauds de l’informatique. Cependant comme les algorithmes d’apprentissage sont en général entraînés sur des grandes masses de données personnelles, les questions de sécurité et de protection des données sont essentielles dans ce domaine et pourtant la recherche sur comment intégrer la confidentialité des données en apprentissage machine en est à ses balbutiements. Les questions de recherche à résoudre sont ici très nombreuses [15], comme par exemple peut-on : apprendre un modèle sur des données chiffrées de manière efficace [5], interroger un modèle avec des requêtes chiffrées [3 ,12], limiter l’information qui risque de transpirer sur les données d’entraînement ou sur le modèle lui- même [14], etc. ? Toutes ces questions sont loins d’être résolues et les questions ouvertes sont encore très nombreuses.

Malgré des réserves justifiées quant à ses performances, l’apprentissage machine homomorphe (apprendre sur des données privées ou utiliser un modèle public aux paramètres privés) est une piste intéressante. Dans cette direction, l’objectif premier de cette thèse sera de développer une boite à outil de calcul homomorphe pour la construction d’algorithmes d’apprentissage machine sur des données chiffrées, possiblement en adaptant des schémas homomorphes existants ou en développement de nouvelles approches à ce problème se basant sur le chiffrement homomorphe. Un exemple de scénario applicatif est le suivant : un client veut délocaliser une tâche d’apprentissage (ex : une classification binaire), sans dévoiler ni les données d’apprentissage, ni les données de test, ni même le modèle appris. Dans un premier temps, on s’intéressera dans le cadre de cette thèse à des algorithmes d’apprentissages simples, comme des réseaux de neurones [18, 13], des arbres de décision ou réseaux Bayésiens 17 et régression logistique [4, 15]. On s’intéressera ensuite à des applications distribués de type apprentissage fédéré [11]. Quelque soit le contexte considéré une partie importante du travail portera sur la définition et modélisation du modèle d’adversaire s’appliquant au contexte considéré.

[1] Aguilar-Melchor, C., Barrier*, J., Fousse, L., and Killijian, M. XPIR : Private information retrieval for everyone. PoPETs 2016, 2 (2016), 155–174.

[2] Aguilar-Melchor, C., Barrier*, J., Guelton, S., Guinet, A., Killijian, M., and Lepoint, T. NFLlib : NTT-based fast lattice library.

[3] Bost, R., Popa, R. A., Tu, S., and Goldwasser, S. Machine learning classification over encrypted data. In 22nd Annual Network and Distributed System Security Symposium, NDSS 2015, San Diego, California, USA, February 8-11, 2015 (2015), The Internet Society.

[4] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. Logistic regression over encrypted data from fully homomorphic encryption. BMC medical genomics 11, 4 (2018), 81.

[5] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. E. Logistic regression over encrypted data from fully homomorphic encryption. IACR Cryptology ePrint Archive 2018 (2018), 462.

[6] Cheon, J. H., Kim, A., Kim, M., and Song, Y. Homomorphic encryption for arithmetic of approximate numbers. In Advances in Cryptology – ASIACRYPT 2017 (Cham, 2017), T. Takagi and T. Peyrin, Eds., Springer International Publishing, pp. 409–437.

[7] Cheon, J. H., Kim, D., Kim, D., Lee, H. H., and Lee, K. Numerical method for comparison on homomorphically encrypted numbers. Cryptology ePrint Archive, Report 2019/417, 2019. [https://eprint.iacr.org/2019/417]

[8] Chillotti, I., Gama, N., Georgieva, M., and Izabachène, M. TFHE : fast fully homo- morphic encryption over the torus. IACR Cryptology ePrint Archive 2018 (2018), 421.

[9] Esgin, M. F., Steinfeld, R., Liu, J. K., and Liu, D. Lattice-based zero-knowledge proofs : New techniques for shorter and faster constructions and applications. Cryptology ePrint Ar- chive, Report 2019/445, 2019. [https://eprint.iacr.org/2019/445]

[10] Gentry, C., et al. Fully homomorphic encryption using ideal lattices. In Stoc (2009), vol. 9, pp. 169–178.

[11] Hardy, S., Henecka, W., Ivey-Law, H., Nock, R., Patrini, G., Smith, G., and Thorne, B. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption. CoRR abs/1711.10677 (2017).

[12] Hesamifard, E., Takabi, H., and Ghasemi, M. Deep neural networks classification over encrypted data. In Proceedings of the Ninth ACM Conference on Data and Application Security and Privacy (New York, NY, USA, 2019), CODASPY ’19, ACM, pp. 97–108.

[13] Izabachène, M., Sirdey, R., and Zuber, M. Practical fully homomorphic encryption for fully masked neural networks. In Cryptology and Network Security (Cham, 2019), Y. Mu, R. H. Deng, and X. Huang, Eds., Springer International Publishing, pp. 24–36.

[14] Jagielski, M., Carlini, N., Berthelot, D., Kurakin, A., and Papernot, N. High- fidelity extraction of neural network models, 2019.

[15] Kim, M., Song, Y., Wang, S., Xia, Y., and Jiang, X. Secure logistic regression based on homomorphic encryption : Design and evaluation. JMIR Med Inform 6, 2 (Apr 2018), e19.

[16] Papernot, N. A marauder’s map of security and privacy in machine learning. Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security - AISec ’18 (2018).

[17] Sun, X., Zhang, P., Liu, J. K., Yu, J., and Xie, W. Private machine learning classification based on fully homomorphic encryption. IEEE Transactions on Emerging Topics in Computing (2018), 1–1.

[18] Zuber, M., Carpov, S., and Sirdey, R. Towards real-time hidden speaker recognition by means of fully homomorphic encryption. Cryptology ePrint Archive, Report 2019/976, 2019. [https://eprint.iacr.org/2019/976]