Sécurité et vie-privée pour la génomique

Contexte

Le monde d’aujourd’hui qui fait face à une explosion de la quantité de données générées, et collectées. Ce dernier point n’a échappé à personne et l’engouement pour l’intelligence artificielle y contribue largement. Malheureusement les thématiques non-fonctionnelles que sont la sécurité et vie privée sont trop souvent laissées de côté. Pourtant, il est essentiel de trouver un compromis entre protection et utilisation des données personnelles, utilité et confidentialité des modèles. En effet, la société et les individus qui la composent ont tout à gagner à une utilisation respectueuse des données individuelles : meilleurs services, investissements sociétaux plus efficaces, vie privée et démocratie protégées. Le sujet présenté ici repose sur l’usage de techniques de chiffrement homomorphe, de calcul multipartite sécuritaire et de confidentialité différentielle pour répondre à ces enjeux et cherche à appliquer ces avancées le champ applicatif de la génomique.

Génomique

Le domaine de la génomique subit en effet une accélération folle, tant en ce qui concerne la recherche (bio-médicale mais également informatique) que des applications, services et industrialisation. En effet, le coût du séquençage d’un génome individuel baisse plus rapidement que la loi de Moore, c’est à dire qu’il est plus que divisé par 2 tous les ans. Ce coût devrait d’ici peu passer sous la barre symbolique des 1000$. Ce qui a un impact évident sur l’accessibilité de la technologie et mène à une rapide explosion du nombre de génomes individuels séquencés.

En effet, tant la société dans son ensemble, que les individus eux-mêmes, sont très motivés par les promesses de thérapies géniques ou de dépistage au plus tôt de maladies génétiques ou de prédispositions à certaines conditions. Cet engouement est tel que nombre d’individus utilisent des réseaux sociaux afin de partager leur génome, découvrir des individus au génome proche et ainsi échanger autour de leurs caractéristiques ou des traitements disponibles pour traiter leur maladies communes. Plusieurs états ont annoncé publiquement des programmes de séquençage massifs des génomes de leur population. En août 2014, le Royaume-Uni annonce le projet Genomics England qui prévoit le séquençage de 100.000 citoyens. En janvier 2015, le président des Etats-Unis annonce la Precision Medicine Initiative qui surenchérit à plus d’un million de génomes séquencés. En mars 2015, le premier ministre Français annonce quand à lui la volonté de développer une filière nationale de la génomique et ainsi de procéder à plus de 200.000 séquençages par an d’ici à 2020. Les industriels ne sont d’ailleurs pas en reste tous les grands, GAFAs au premier plan, proposent des outils liés au stockage et au calcul de données génomiques, comme par exemple Google Genomics.

L’arrivée de cette masse de données ultra-sensibles pose évidemment des problèmes de confidentialité. Les grandes bases de données de santé représentaient en 2015 plus d’un tiers des vols de données d’après un rapport IBM Security. De plus, les données génomiques d’un individu sont particulièrement sensibles d’un point de vue du respect de la vie-privée du fait qu’elle possèdent plusieurs caractéristiques singulières :

  1. l’ADN d’un individu est unique (à l’exception des vrais jumeaux) ce qui permet donc d’identifier uniquement un individu à partir de son ADN,
  2. cet ADN est statique, c’est à dire qu’il ne change pas dans le temps, ce qui fait qu’un enregistrement d’ADN est une signature permanente,
  3. il concerne et permet d’apprendre certaines caractéristiques liées à la santé, voire au comportement, des individus,
  4. il expose des liens de parentés, qui parfois peuvent être inconnus des individus eux-mêmes,
  5. il a une valeur certaine tant en termes économiques qu’en termes médicaux.

Il est donc bien évidemment essentiel de protéger correctement ces données. Toutefois, les placer dans un coffre fort numérique à base de cryptographie forte n’est pas une solution satisfaisante. En effet, les applications escomptées, qu’elles ciblent la société elle-même ou les individus, nécessitent que certains calculs restent possibles sur les données alors qu’elles sont protégées contre d’autres accès non-désirés ou non-autorisés. C’est d’ailleurs cette tension entre le besoin de protection et le besoin d’accessibilité (d’utilité) qui rend la question de la Genomic Privacy particulièrement intéressante scientifiquement.

Cryptographie, Sécurité et Confidentialité

Un schéma de chiffrement homomorphe (HE) permet de calculer une fonction (ou un circuit) arbitraire sur des données chiffrées. De pure vue de l’esprit, le HE est devenu, ces dernières années, grâce notamment aux avancées concernant le calcul sur les réseaux Euclidiens, un outil utilisable en pratique, même si son efficacité en terme de temps de calcul n’est pas encore satisfaisante. En particulier, des schémas de chiffrement partiellement homomorphe, dont le nombre d’opération dans le monde des chiffrés est paramétré, ont permis des avancées notables dans le monde des mécanismes pour la protection de la vie privée.

Les techniques du calcul multipartite sécuritaire (MPC) reposent quant à elles sur l’utilisation d’outils cryptographiques (tels que le partage de clé secrète, les transferts inconscients, ou encore du HE). Le principe sous-jacent est que plusieurs participants calculent une fonction de leurs entrées secrètes et n’en apprennent que le résultat. Le MPC est également utile pour construire des primitives de protection de la vie privée.

La confidentialité différentielle (DP), quant à elle, est un modèle de vie privée qui propose une métrique qui mesure l’anonymisation de données ainsi que des mécanismes qui permettent d’introduire du bruit dans les données, et ce afin d’atteindre un certain niveau de cette métrique. Jusqu’à il y a peu de temps, cette technique a été essentiellement réservée aux bases de données, afin d’empêcher les attaques de ré-identification, mais son utilisation dans le cadre de mécanismes de protection en-ligne commence à être envisagée.

Objectifs de la Maitrise

Ces techniques sont à la pointe de la recherche actuelle en protection de la vie privée. Dans cette maitrise, il s’agit de les étudier, de les développer et de les utiliser conjointement afin de lever les verrous de la protection de la vie privée, en général mais aussi en particulier appliquée au domaine de la génomique.

Contact

Me contacter (killijian.marc-olivier.2@uqam.ca) par courriel pour discuter de ce sujet et de vos intérêts.