Uitleg nieuwe methode CityTraffic

Edit 9-1-2019 : Inmiddels met CityTraffic gesproken en er gebeurd wat meer dan 2x hashen. Er worden ook gegevens getruncate, dit zou dan voor voldoende privacy moeten zorgen. Hiermee kunnen ze niet meer de tijdsduur in de stad of zien of iemand nieuw is zien.  Ik probeer nog meer technische details te achterhalen en zal het hier aanvullen.

CityTraffic geeft aan dat zij van een pseudo geanonimiseerde data naar geanonimiseerd data. Als ik de informatie goed begrijp doen ze dit door een extra hash of versleuteling uit te voeren op de gegevens die van de sensor binnen komen en in de database gezet wordt.

Anonimiseren van data heeft een lange geschiedenis en blijkt in de praktijk ook tegen te vallen om dit goed te doen. Er zijn vele gevallen bekend dat een anonieme dataset is vrijgegeven waarbij de onderzoekers er toch in slaagden om deze te koppelen met personen. In het kort zou het voor wifi telling alleen kunnen als je op het sensor al genoeg gegevens cummeleerd (waardoor meteen individuele gegevens verdwijnt). In het huidige verhaal van CityTraffic wordt eerst alle gegevens van de sensor doorgestuurd naar de database, dus 1 regel in de database is nog steeds 1 persoon. Dat daar een dubbel hash / versleuteld nummertje bijstaat die niet terug te voeren naar een MAC adres maakt niet uit, dit is niet wezenlijk anders dan in de oude situatie waarbij MAC adres dmv hash SHA265 wordt berekend.

In mijn optiek heeft CityTraffic de methode niet voldoende aangepast om echt te kunnen spreken van anonieme gegevens. Ze versleutelen de MAC adres 2x, een keer op de sensor en vervolgens op de server. Maar als de gegevens van 1 persoon nog steeds individueel in de database komt maakt dit allemaal niet uit, hoe vaak je ook het MAC adres hash / versleuteld.