Nouveaux mécanismes de protection de la vie privée par chiffrement homomorphe

Published in UQAM, 2021

Un schéma de chiffrement homomorphe (HE) [10] permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées de telle manière à ce que l’entité effectuant le calcul (ex : un fournisseur de ressources de calcul) n’apprenne aucune information sur les données d’entrée ou même la sortie du calcul. De pure vue de l’esprit pendant une trentaine d’années, le HE est devenu ces dernières années, en partie notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique [2], même si sa performance en termes de temps de calcul n’est pas encore satisfaisante pour permettre un déploiement à très large échelle. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des technologies d’amélioration du respect de la vie privée [1].

Les techniques du calcul multipartite sécuritaire (MPC) reposent quant à elles sur l’utilisation d’outils cryptographiques (tels que le partage de clé secrète, les transferts inconscients, ou encore du HE). Le principe sous-jacent est que plusieurs participants calculent une fonction de leurs entrées secrètes et n’en apprennent que le résultat. Le MPC est également utile pour construire des primitives de protection de la vie privée.

Poussé par le succès du chiffrement homomorphe, la cryptographie basée sur les réseaux a fait récemment de grande avancées, tant en terme de nouveaux schémas de chiffrement partiellement ou complètement homomorphe, qu’au niveau de applicabilité et son efficacité. On dispose par exemple maintenant de schémas dédiés aux données encodées en binaire (ex : TFHE [8] qui est complète- ment homomorphe et permet donc de construire des circuits booléens arbitraires) ou aux calculs en virgule fixe (ex : CKKS [6] qui permet de contrôler le débordement du bruit du aux opérations homomorphes). Il s’agit toutefois d’outils encore complexes à utiliser, maitriser et paramétrer. De plus, comme il s’agit d’un sujet très actif la cryptographie continue d’avancer en direction de schémas de chiffrement plus efficaces et compacts [9]. Par exemple, [7] ont proposé une solution efficace pour comparer des nombres chiffrés avec le schéma CKKS alors qu’auparavant, les constructions efficaces de comparaison (<,>,min, max) se basaient sur une représentation binaire des nombres et des circuits d’évaluation booléens et avaient en conséquence un coût important, tant en espace qu’en temps de calcul. Ces nouveaux résultats ouvrent de nouvelles perspectives très prometteuses pour calculer un argmax de façon privée par exemple.

Grâce aux performances atteintes avec les librairies récentes de chiffrement homomophe, tel que NFLlib [2] , il est possible d’envisager une multitude d’applications en termes de mécanismes de protection de la vie privée, comme par exemple le retrait d’information privée (PIR) ou le calcul d’intersection privé (PSI). Un PIR est une primitive qui permet à un client de récupérer un élément d’une base de données sans que le serveur, ou un attaquant qui écouterait le trafic réseau, ne puisse apprendre quel est l’élément en question. Il existe deux familles de PIR : les PIR informationnels, qui opèrent un partage d’information entre plusieurs serveurs qui se répartissent la base de données, sans confiance mutuelle ; et les PIR computationnels qui demandent au serveur de calculer une fonction qui dépend de tous les éléments de la base de données. Jusqu’à peu, concevoir un PIR computationnel efficace était considéré comme irréalisables en pratique [30], c’est-à-dire qu’il était plus efficace d’envoyer la base de données complète au client. Dans [1], nous invalidons ce résultat et montrons que grâce aux progrès du HE, il est possible de concevoir des protocoles PIR très efficaces.

Le PIR est utile comme brique de base pour toute sorte d’applications. Dans [31], nous décrivons une solution, basée sur le PIR, de stockage nuagique sécurisé des données génomiques d’un individu. En plus du simple stockage, le propriétaire des données, ou un délégué comme son médecin par exemple, peut interroger la base de données pour connaitre la présence ou non d’une mutation particulière dans son génome, et ce sans dévoiler quoi que ce soit au serveur. Le PSI est une primitive de MPC qui permet à deux entités de calculer l’intersection ensembliste de leurs deux entrées respectives, sans dévoiler ces dernières. Seul le résultat, l’intersection, est dévoilé à la fin de la primitive. Le PSI, tout comme de nombreuses autres construction de MPC, peuvent bénéficier de performances accrues grâce au progrès récents du HE. Le PSI a été utilisé dans le cadre applicatif du covoiturage [4] pour de calculer les points de rencontre et de dépôt entre conducteurs et passagers, tout en optimisant leur trajet et sans dévoiler leurs localisations respectives.

En se basant sur les derniers résultats du chiffrement homomorphe et du calcul mutipartite sécuritaire, l’objectif principal de cette thèse sera de construire des primitives de protection de la vie privée plus efficaces et/ou plus sécuritaires, en utilisant conjointement les outils du HE et du MPC. Par exemple, on cherchera à construire un PIR symétrique qui assure qu’un client ne récupère bien qu’un seul élément de la base de données. D’autre part, en utilisant les propriétés spécifiques de différents schémas de HE en terme de comparaison [11], on cherchera à construire des PIRs plus efficace en terme de taille des requêtes du client. De façon similaire, d’autres primitives telles que le PSI ou le calcul du top-k privé, par exemple, bénéficieront, en termes d’efficacité et/ou de sécurité, de l’utilisation conjointe du HE et du MPC.

[1] Aguilar-Melchor, C., Barrier*, J., Fousse, L., and Killijian, M. XPIR : Private information retrieval for everyone. PoPETs 2016, 2 (2016), 155–174.

[2] Aguilar-Melchor, C., Barrier*, J., Guelton, S., Guinet, A., Killijian, M., and Lepoint, T. NFLlib : NTT-based fast lattice library.

[3] Bost, R., Popa, R. A., Tu, S., and Goldwasser, S. Machine learning classification over encrypted data. In 22nd Annual Network and Distributed System Security Symposium, NDSS 2015, San Diego, California, USA, February 8-11, 2015 (2015), The Internet Society.

[4] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. Logistic regression over encrypted data from fully homomorphic encryption. BMC medical genomics 11, 4 (2018), 81.

[5] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. E. Logistic regression over encrypted data from fully homomorphic encryption. IACR Cryptology ePrint Archive 2018 (2018), 462.

[6] Cheon, J. H., Kim, A., Kim, M., and Song, Y. Homomorphic encryption for arithmetic of approximate numbers. In Advances in Cryptology – ASIACRYPT 2017 (Cham, 2017), T. Takagi and T. Peyrin, Eds., Springer International Publishing, pp. 409–437.

[7] Cheon, J. H., Kim, D., Kim, D., Lee, H. H., and Lee, K. Numerical method for comparison on homomorphically encrypted numbers. Cryptology ePrint Archive, Report 2019/417, 2019. [https://eprint.iacr.org/2019/417]

[8] Chillotti, I., Gama, N., Georgieva, M., and Izabachène, M. TFHE : fast fully homo- morphic encryption over the torus. IACR Cryptology ePrint Archive 2018 (2018), 421.

[9] Esgin, M. F., Steinfeld, R., Liu, J. K., and Liu, D. Lattice-based zero-knowledge proofs : New techniques for shorter and faster constructions and applications. Cryptology ePrint Ar- chive, Report 2019/445, 2019. [https://eprint.iacr.org/2019/445]

[10] Gentry, C., et al. Fully homomorphic encryption using ideal lattices. In Stoc (2009), vol. 9, pp. 169–178.

[11] Hardy, S., Henecka, W., Ivey-Law, H., Nock, R., Patrini, G., Smith, G., and Thorne, B. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption. CoRR abs/1711.10677 (2017).

[12] Hesamifard, E., Takabi, H., and Ghasemi, M. Deep neural networks classification over encrypted data. In Proceedings of the Ninth ACM Conference on Data and Application Security and Privacy (New York, NY, USA, 2019), CODASPY ’19, ACM, pp. 97–108.

[13] Izabachène, M., Sirdey, R., and Zuber, M. Practical fully homomorphic encryption for fully masked neural networks. In Cryptology and Network Security (Cham, 2019), Y. Mu, R. H. Deng, and X. Huang, Eds., Springer International Publishing, pp. 24–36.

[14] Jagielski, M., Carlini, N., Berthelot, D., Kurakin, A., and Papernot, N. High- fidelity extraction of neural network models, 2019.

[15] Kim, M., Song, Y., Wang, S., Xia, Y., and Jiang, X. Secure logistic regression based on homomorphic encryption : Design and evaluation. JMIR Med Inform 6, 2 (Apr 2018), e19.

[16] Papernot, N. A marauder’s map of security and privacy in machine learning. Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security - AISec ’18 (2018).

[17] Sun, X., Zhang, P., Liu, J. K., Yu, J., and Xie, W. Private machine learning classification based on fully homomorphic encryption. IEEE Transactions on Emerging Topics in Computing (2018), 1–1.

[18] Zuber, M., Carpov, S., and Sirdey, R. Towards real-time hidden speaker recognition by means of fully homomorphic encryption. Cryptology ePrint Archive, Report 2019/976, 2019. [https://eprint.iacr.org/2019/976]