« New York City officials have inadvertently revealed the detailed comings and goings of individual taxi drivers over more than 173 million trips. [...] It turns out there’s a significant flaw in the approach. Because both the medallion and hack numbers are structured in predictable patterns, it was trivial to run all possible iterations through the same MD5 algorithm and then compare the output to the data contained in the 20GB file. »
▻http://arstechnica.com/tech-policy/2014/06/poorly-anonymized-logs-reveal-nyc-cab-drivers-detailed-whereabouts
Il faut le rappeler pour la millionième fois : l’anonymisation des données, c’est souvent de la blague. Pour que les données restent utilisables, il faut laisser des informations, et celles-ci permettent souvent de retrouver les identités. Ici, l’erreur est énorme (oublier de saler) mais des erreurs presque aussi énormes arrivent souvent lorsque des amateurs prétendent « anonymiser » des données.