Nieuws

Google fopt zichzelf bij verzamelen data

Het openbronproject Rappor gebruikt bewust warrige data om Google op een privacyvriendelijke manier informatie te laten verzamelen.

Het is een lastige vraag voor veel software-ontwikkelaars: hoe verzamel je gegevens over de gebruikers van je product zonder dat je daarbij hun privacy schendt? Een van de oplossingen is het openbronproject Rappor van Google. Dan stuurt de software data door waarvan je weet dat deze niet kloppen.

Die aanpak lijkt tegen alles in te gaan waar dataverzamelaars voor staan, want vaak steken ze er heel veel moeite in om juist de foute gegevens eruit te filteren. De sleutel tot de manier hoe Google het aanpakt is een trucje met de naam randomized response. Het laat nog steeds de juiste gegevens zien volgens Úlfar Erlingsson, een manager in Googles veiligheidonderszoeksdivisie.

[related_article id=”158578″]

Rappor stelt Google in staat om “het hele bos aan klantgegevens te bestuderen zonder de mogelijkheid dat je per ongeluk naar losse bomen kijkt”. Dit staat te lezen in een ontwerpdocument over Rappor.

Onderzoek naar malware
Google test deze aanpak in zijn browser Chrome. Het verzamelt data over welke websites gebruikers instellen als standaard. Op die manier hoopt Google een beter zicht te krijgen op malware die de standaardpagina aanpast voor mensen.

Ongeveer veertien miljoen gebruikers nemen deel aan het onderzoek. Deze groep is gepakt uit een nog grotere populatie van mensen die Chrome toestemming hebben gegeven om gebruiksdata door te sturen naar Google.

Het is een interessant project voor een bedrijf met zo veel persoonlijke data als Google. Deze gegevens kunnen van nut zijn voor nieuwsgierige overheden, kwaadaardige hackers en Google zelf, maar Rappor verhult wat er precies gaande is voor elke individu voordat de informatie bij Google arriveert. Het resultaat is een sterk verbeterde privacy voor gebruikers.

Waarom gegevens verzamelen?
Softwarebedrijven profiteren al jaren van verzamelde data over hun producten: wat is de belangrijkste oorzaak voor crashes? Welke opties zijn populair en welke niet? Wat is het effect van een interfacewijziging? Hoeveel gebruikers hebben een verouderd besturingssysteem?

Meestal verzamelt de software deze gegevens en stuurt ze vervolgens door naar de ontwikkelaar. Wanneer deze iets om privacy geeft “anonimiseert” hij de data om details waarmee je iemand kunt identificeren weg te halen. Met Rappor gebeurt dit al voordat de gegevens bij de ontwikkelaar belanden.

Voorbeeld uit ontwerpdocument
Het volgende voorbeeld komt uit het Rappor-document. Het gaat over gevoelige informatie over het lidmaatschap van een communistische partij. Een respondent gooit een muntje op. Als het munt is beantwoordt hij de vraag naar waarheid. Wanneer het kop is dan zeggen ze altijd dat ze lid zijn, ongeacht wat werkelijk waar. Op die manier worden de ja-reacties verstopt. Een andere gooi van het muntje kan de nee-reacties verstoppen.

Statistiekanalyses kunnen onthullen wat er aan de hand is met de gehele populatie zolang deze groot genoeg is. In het geval van Chrome is dat geen enkel probleem: honderden miljoenen gebruikers, hoewel velen van hen ongetwijfeld ervoor gekozen hebben geen data door te sturen.

Homepageonderzoek
Het onderzoek van Chrome naar de homepage laat nog wat meer zien over het halen van informatie uit de ruwe data. Met een populatie van veertien miljoen gebruikers was een specifieke homepage niet zichtbaar in de statistieken totdat minimaal veertienduizend mensen hem gebruikten.

In totaal ontdekte het onderzoek 8.616 verschillende websites als homepage. Slechts een half procent daarvan kwam over die grens heen. Dat kleine aantal pagina"s – net iets minder dan vijftig – wordt zeer vaak gebruikt. Ze zijn verantwoordelijk voor 85 procent van de keuzes.

De gerandomiseerde reactietechniek bestaat al tientallen jaren, maar het probleem ervan is dat het persoonlijke informatie kan onthullen als dezelfde persoon dezelfde vraag meerdere malen beantwoordt. Dan verschijnt de waarheid door de willekeurige ruis heen.

Geen patroon
Google stelt dat Rappor dit probleem heeft uitgeschakeld. “De elegante manier waarop het de privacy van klanten beschermt van wie regelmatig data wordt verzameld is prijzenswaardig”, staat in het rapport te lezen. Google beschrijft het proces, dat memorization heet, dat voorkomt dat zelfs gerandomiseerde gegevens na verloop van tijd een patroon tonen.

Aangezien het een openbronproject is kan iedereen Rappor voor zijn eigen software gebruiken. Google moedigt dat aan: “het geeft de klanten weer beheer over hun eigen gegevens.”

Gerelateerde artikelen

Volg ons

69% korting + 3 maanden gratis

69% korting + 3 maanden gratis

Bezoek NordVPN

Business