Modéliser le risque de ré-identification dans les données anonymisées

Cet article propose une méthode statistique permettant d’estimer avec précision la probabilité qu’une tentative de ré-identification d’un individu dans un jeu de données anonymisé soit réussie, et ce même lorsque le jeu de données est fortement incomplet. Les auteurs remettent ainsi en question l’argument selon lequel l’incomplétude des données fournirait une forme de “déni plausible” contre les risques de ré-identification. Leurs résultats soulignent la nécessité de revoir les pratiques actuelles de dé-identification à la lumière des nouvelles normes de protection des données personnelles.

Points clés

  • Les auteurs ont développé un modèle génératif basé sur les copules gaussiennes pour estimer la probabilité qu’un individu soit correctement ré-identifié dans un jeu de données anonymisé
  • Leur modèle atteint une erreur moyenne absolue de seulement 0,018 pour estimer l’unicité d’une population, et de 0,041 lorsque le modèle est entraîné sur seulement 1% de la population
  • Le modèle permet de prédire avec une fiabilité élevée (taux d’erreur <6,7%) si une ré-identification est correcte, soit 39% mieux que les meilleures méthodes existantes
  • L’unicité individuelle augmente rapidement avec le nombre d’attributs disponibles, rendant la ré-identification très probable même dans des jeux de données incomplets
  • Les résultats remettent en cause l’argument selon lequel l’incomplétude des données fournirait une forme de “déni plausible” contre les risques de ré-identification
  • Ils soulignent la nécessité de revoir les pratiques actuelles de dé-identification à la lumière des nouvelles normes de protection des données personnelles

À retenir

Ces résultats alarmants montrent que même avec des jeux de données incomplets, les risques de ré-identification restent élevés et que les pratiques actuelles de dé-identification sont loin d’être suffisantes pour protéger efficacement la vie privée des individus. Il est grand temps que les autorités réglementaires et les entreprises revoient leurs méthodes de protection des données à la lumière de ces nouvelles menaces. Sinon, on risque de voir de plus en plus de scandales de fuites de données sensibles dans les années à venir. Mais bon, avec un peu de chance, tout ça n’est qu’une tempête dans un verre d’eau et les gens finiront par s’habituer à ce qu’on fouine dans leurs données personnelles, non ?

Sources