De methode van City Traffic om gegevens te anonimiseren blijft me toch bezig houden. Hoe ze precies van een MAC adres hun eigen hash maken die opgeslagen wordt in de database is me ondanks vele vragen nog steeds niet duidelijk. Om toch iets te kunnen doen doe ik hieronder wat aannames, als het ander is hoor ik graag van de specialisten hoe het dan wel moet ( of beter laat het zien in deze github code). Wat ik van ze begrijp doen ze het volgende :
- Pseudo anonimiseren door hashen het MAC adres naar ‘op sha256 gebaseerde eigen methode’. Normaal geeft een sha256() een hex string van 64 tekens, dus ga ik hier van uit.
- Nogmaals iets met de hash doen wat een resultaat geeft van 17 tekens. Ondanks meerdere malen te hebben gevraagd hoe/wat ze het terug brengen naar 17 teken heb ik geen idee wat ze precies doen. Voor nu ga ik van uit dat ze van de 64 tekens de eerst 17 tekens gebruiken.
Als ik van de hierboven gestelde methode uitga en ik ga voor 17.000.000 ‘adressen’ (ALLE inwoners van Nederland) de eerste 17 tekens van sha256 opslaan in een database, hoeveel dubbele hashes denk je dat ik dan heb? Ik heb het programma gemaakt die precies dit doet, het antwoord is dat ik 0 (!!) dubbele hashes heb. Dus als we deze methode vertalen naar de ‘City Trafic’ methode betekent dit dat het ‘dubbel hashen’ van getallen leuk is maar nog steeds 1 persoon is, en dus een persoonlijk gegeven. Als ik uitga van een stad van Enschede met 5000 bezoekers moet je het aantal karakters terugbrengen naar 4 of minder om een beetje te anonimiseren , (met 4 tekens 184 dubbele records (nog steeds te weinig naar mijn mening), met 5 krijgt men 8 dubbele records, met 6 is iedere record uniek).
Toby Kuiper heeft ook wat meer inhoudelijk naar deze getallen gekeken en komt tot de conclusie dat kans op een dubbel hash wel heel erg klein is (gelijk aan 1500000 x achter elkaar de staatsloterij winnen).