Nous laissons tous des données sur internet. Avec quelques éléments seulement, il est très facile de nous identifier. (Photo: Shutterstock)

Nous laissons tous des données sur internet. Avec quelques éléments seulement, il est très facile de nous identifier. (Photo: Shutterstock)

N’importe qui peut être identifié sur base de quelques données, avec une certitude de 99,98%. C’est la conclusion de l’étude de trois chercheurs de l’UCL (Université catholique de Louvain, en Belgique) qui jette un fameux pavé dans la mare du RGPD.

On devrait sans doute beaucoup parler, prochainement, de cette étude menée par l’Université catholique de Louvain et l’Imperial College de Londres, évoquée par nos collègues du journal Le Soir. Luc Rocher, Julien Hendrickx et Yves-Alexandre de Montjoye, trois chercheurs et enseignants, ont voulu savoir si les données que nous laissons tous traîner sur internet étaient aussi anonymes que ce qu’on veut bien nous dire. Leur constat est sans appel: il suffit de quelques éléments pour identifier une personne avec une certitude de 99,98%.

Le RGPD ne suffit plus

Pourtant, plusieurs garde-fous existent. Notamment le RGPD. Ou encore l’anonymisation qui impose à ceux qui traitent des données sensibles de brouiller les pistes via des logiciels, notamment en gommant tout indice permettant de remonter jusqu’aux personnes et de noyer les informations dans du «bruit». C’est une fois nettoyé de la sorte que le jeu de données peut être vendu à des fins de marketing ou scientifiques.

Les  chercheurs ont cependant mis en lumière que quelques algorithmes suffisaient pour identifier la personne. En 2016, des journalistes ont ainsi su réidentifier des hommes politiques parmi un jeu de 3 millions de données anonymes. Peu après, il n’a fallu que six semaines pour créer un jeu de données médicales portant sur l’ensemble de la population australienne. D’autres ont encore réussi à mettre un nom sur des personnes en exploitant les trajets anonymes des taxis dans la ville de New York.

Selon l’étude, là où le bât blesse, c’est au niveau légal. Ces données ayant été anonymisées, elles ne tombent par exemple plus sous le coup du RGPD. C’est donc le flou et, comme le souligne Le Soir, on peut raisonnablement imaginer une compagnie d’assurances s’en servir pour remonter le pedigree médical d’un client.

Relever les standards légaux

Car  non seulement on peut identifier n’importe qui en travaillant sur quelques données, mais aussi avoir la quasi-certitude que c’est la bonne personne. Il suffit de 15 attributs pour identifier à 99,98% une personne sur l’ensemble de la population des États-Unis. Voilà qui met à mal les dires des exploitants des données qui négligent souvent cette possibilité.

Que plaident les trois chercheurs? Un relèvement des standards légaux de désidentification. Tout comme il semble nécessaire selon eux de revoir et de mettre à jour les outils de contrôle des entreprises qui utilisent ces données. «Et il y a urgence», ont-ils encore indiqué au Soir.