Un protocole SMPC de curation de données d’entrainement et sa fragilité aux hypothèses de sécurité : Sécurité et insécurité - dans quel état j’erre, ai-je bien rangé mon modèle de sécurité ?

Date:

De nos jours, les sources de données, et leurs curateurs, sont répartis à travers le monde. Il arrive que les propriétaires de ces données souhaitent collaborer entre eux afin d’augmenter la qualité de ces données, particulièrement avant d’entrainer des modèles d’apprentissage machine.

Dans cet exposé, je commencerai par présenter CryptoGraph, un protocole multi-parties sécuritaire qui permet à plusieurs entités d’améliorer la qualité de leurs graphes, avant d’entrainer des GNNs (Graph Neural Networks). CryptoGraph permet aux participants d’effectuer une prédiction de lien collaborative, en calculant une matrice des voisins communs issue de l’union des graphes, et ce, tout en protégeant la confidentialité des données de chaque partie. Nous montrons que ce protocole permet de mitiger des attaques d’empoisonnement de données de façon efficace.

Dans une deuxième partie, qui porte sur un travail en cours, nous envisagerons différentes attaques autour de cette application. Tout d’abord nous explorerons la possibilité qu’un participant « honnête mais curieux » à un tel protocole, ou qui dispose simplement des données de voisinage d’un graphe cible, de reconstruire ce dernier. En effet, je présenterai un enchainement de deux attaques, l’une déterministe et structurelle, l’autre heuristique et spectrale, qui permet à l’attaquant de retrouver le graphe cible avec une grande précision. D’autre part, nous considèrerons un attaquant malveillant qui cherche à empoisonner les données d’un participant à CryptoGraph. Je montrerai une approche simple qui permet de modifier la décision d’un GNN en empoisonnant les données d’une entité, malgré sa participation à CryptoGraph mais aussi à travers sa participation à un protocole de nettoyage des données.

Pour conclure cet exposé quelque peu schizophrène, nous conclurons sur une discussion autour des modèles de sécurité, adaptés, ou non, aux systèmes et environnements dans lesquels nos travaux peuvent prendre place.