Nouveaux mécanismes de protection de la vie privée par chiffrement homomorphe

Published in UQAM, 2021

Un schéma de chiffrement homomorphe (HE) [10] permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées de telle manière à ce que l’entité effectuant le calcul (ex : un fournisseur de ressources de calcul) n’apprenne aucune information sur les données d’entrée ou même la sortie du calcul. De pure vue de l’esprit pendant une trentaine d’années, le HE est devenu ces dernières années, en partie notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique [2], même si sa performance en termes de temps de calcul n’est pas encore satisfaisante pour permettre un déploiement à très large échelle. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des technologies d’amélioration du respect de la vie privée [1].

Les techniques du calcul multipartite sécuritaire (MPC) reposent quant à elles sur l’utilisation d’outils cryptographiques (tels que le partage de clé secrète, les transferts inconscients, ou encore du HE). Le principe sous-jacent est que plusieurs participants calculent une fonction de leurs entrées secrètes et n’en apprennent que le résultat. Le MPC est également utile pour construire des primitives de protection de la vie privée.

Poussé par le succès du chiffrement homomorphe, la cryptographie basée sur les réseaux a fait récemment de grande avancées, tant en terme de nouveaux schémas de chiffrement partiellement ou complètement homomorphe, qu’au niveau de applicabilité et son efficacité. On dispose par exemple maintenant de schémas dédiés aux données encodées en binaire (ex : TFHE [8] qui est complète- ment homomorphe et permet donc de construire des circuits booléens arbitraires) ou aux calculs en virgule fixe (ex : CKKS [6] qui permet de contrôler le débordement du bruit du aux opérations homomorphes). Il s’agit toutefois d’outils encore complexes à utiliser, maitriser et paramétrer. De plus, comme il s’agit d’un sujet très actif la cryptographie continue d’avancer en direction de schémas de chiffrement plus efficaces et compacts [9]. Par exemple, [7] ont proposé une solution efficace pour comparer des nombres chiffrés avec le schéma CKKS alors qu’auparavant, les constructions efficaces de comparaison (<,>,min, max) se basaient sur une représentation binaire des nombres et des circuits d’évaluation booléens et avaient en conséquence un coût important, tant en espace qu’en temps de calcul. Ces nouveaux résultats ouvrent de nouvelles perspectives très prometteuses pour calculer un argmax de façon privée par exemple.

Grâce aux performances atteintes avec les librairies récentes de chiffrement homomophe, tel que NFLlib [2] , il est possible d’envisager une multitude d’applications en termes de mécanismes de protection de la vie privée, comme par exemple le retrait d’information privée (PIR) ou le calcul d’intersection privé (PSI). Un PIR est une primitive qui permet à un client de récupérer un élément d’une base de données sans que le serveur, ou un attaquant qui écouterait le trafic réseau, ne puisse apprendre quel est l’élément en question. Il existe deux familles de PIR : les PIR informationnels, qui opèrent un partage d’information entre plusieurs serveurs qui se répartissent la base de données, sans confiance mutuelle ; et les PIR computationnels qui demandent au serveur de calculer une fonction qui dépend de tous les éléments de la base de données. Jusqu’à peu, concevoir un PIR computationnel efficace était considéré comme irréalisables en pratique [30], c’est-à-dire qu’il était plus efficace d’envoyer la base de données complète au client. Dans [1], nous invalidons ce résultat et montrons que grâce aux progrès du HE, il est possible de concevoir des protocoles PIR très efficaces.

Le PIR est utile comme brique de base pour toute sorte d’applications. Dans [31], nous décrivons une solution, basée sur le PIR, de stockage nuagique sécurisé des données génomiques d’un individu. En plus du simple stockage, le propriétaire des données, ou un délégué comme son médecin par exemple, peut interroger la base de données pour connaitre la présence ou non d’une mutation particulière dans son génome, et ce sans dévoiler quoi que ce soit au serveur. Le PSI est une primitive de MPC qui permet à deux entités de calculer l’intersection ensembliste de leurs deux entrées respectives, sans dévoiler ces dernières. Seul le résultat, l’intersection, est dévoilé à la fin de la primitive. Le PSI, tout comme de nombreuses autres construction de MPC, peuvent bénéficier de performances accrues grâce au progrès récents du HE. Le PSI a été utilisé dans le cadre applicatif du covoiturage [4] pour de calculer les points de rencontre et de dépôt entre conducteurs et passagers, tout en optimisant leur trajet et sans dévoiler leurs localisations respectives.

En se basant sur les derniers résultats du chiffrement homomorphe et du calcul mutipartite sécuritaire, l’objectif principal de cette thèse sera de construire des primitives de protection de la vie privée plus efficaces et/ou plus sécuritaires, en utilisant conjointement les outils du HE et du MPC. Par exemple, on cherchera à construire un PIR symétrique qui assure qu’un client ne récupère bien qu’un seul élément de la base de données. D’autre part, en utilisant les propriétés spécifiques de différents schémas de HE en terme de comparaison [11], on cherchera à construire des PIRs plus efficace en terme de taille des requêtes du client. De façon similaire, d’autres primitives telles que le PSI ou le calcul du top-k privé, par exemple, bénéficieront, en termes d’efficacité et/ou de sécurité, de l’utilisation conjointe du HE et du MPC.

[1] Aguilar-Melchor, C., Barrier*, J., Fousse, L., and Killijian, M. XPIR : Private information retrieval for everyone. PoPETs 2016, 2 (2016), 155–174.

[2] Aguilar-Melchor, C., Barrier*, J., Guelton, S., Guinet, A., Killijian, M., and Lepoint, T. NFLlib : NTT-based fast lattice library.

[3] Bost, R., Popa, R. A., Tu, S., and Goldwasser, S. Machine learning classification over encrypted data. In 22nd Annual Network and Distributed System Security Symposium, NDSS 2015, San Diego, California, USA, February 8-11, 2015 (2015), The Internet Society.

[4] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. Logistic regression over encrypted data from fully homomorphic encryption. BMC medical genomics 11, 4 (2018), 81.

[5] Chen, H., Gilad-Bachrach, R., Han, K., Huang, Z., Jalali, A., Laine, K., and Lauter, K. E. Logistic regression over encrypted data from fully homomorphic encryption. IACR Cryptology ePrint Archive 2018 (2018), 462.

[6] Cheon, J. H., Kim, A., Kim, M., and Song, Y. Homomorphic encryption for arithmetic of approximate numbers. In Advances in Cryptology – ASIACRYPT 2017 (Cham, 2017), T. Takagi and T. Peyrin, Eds., Springer International Publishing, pp. 409–437.

[7] Cheon, J. H., Kim, D., Kim, D., Lee, H. H., and Lee, K. Numerical method for comparison on homomorphically encrypted numbers. Cryptology ePrint Archive, Report 2019/417, 2019. [https://eprint.iacr.org/2019/417]

[8] Chillotti, I., Gama, N., Georgieva, M., and Izabachène, M. TFHE : fast fully homo- morphic encryption over the torus. IACR Cryptology ePrint Archive 2018 (2018), 421.

[9] Esgin, M. F., Steinfeld, R., Liu, J. K., and Liu, D. Lattice-based zero-knowledge proofs : New techniques for shorter and faster constructions and applications. Cryptology ePrint Ar- chive, Report 2019/445, 2019. [https://eprint.iacr.org/2019/445]

[10] Gentry, C., et al. Fully homomorphic encryption using ideal lattices. In Stoc (2009), vol. 9, pp. 169–178.

[11] Hardy, S., Henecka, W., Ivey-Law, H., Nock, R., Patrini, G., Smith, G., and Thorne, B. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption. CoRR abs/1711.10677 (2017).

[12] Hesamifard, E., Takabi, H., and Ghasemi, M. Deep neural networks classification over encrypted data. In Proceedings of the Ninth ACM Conference on Data and Application Security and Privacy (New York, NY, USA, 2019), CODASPY ’19, ACM, pp. 97–108.

[13] Izabachène, M., Sirdey, R., and Zuber, M. Practical fully homomorphic encryption for fully masked neural networks. In Cryptology and Network Security (Cham, 2019), Y. Mu, R. H. Deng, and X. Huang, Eds., Springer International Publishing, pp. 24–36.

[14] Jagielski, M., Carlini, N., Berthelot, D., Kurakin, A., and Papernot, N. High- fidelity extraction of neural network models, 2019.

[15] Kim, M., Song, Y., Wang, S., Xia, Y., and Jiang, X. Secure logistic regression based on homomorphic encryption : Design and evaluation. JMIR Med Inform 6, 2 (Apr 2018), e19.

[16] Papernot, N. A marauder’s map of security and privacy in machine learning. Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security - AISec ’18 (2018).

[17] Sun, X., Zhang, P., Liu, J. K., Yu, J., and Xie, W. Private machine learning classification based on fully homomorphic encryption. IEEE Transactions on Emerging Topics in Computing (2018), 1–1.

[18] Zuber, M., Carpov, S., and Sirdey, R. Towards real-time hidden speaker recognition by means of fully homomorphic encryption. Cryptology ePrint Archive, Report 2019/976, 2019. [https://eprint.iacr.org/2019/976]