14 december 2012 15:00

Met elke ‘Like’ is Big Data een stap verder weg

Tijdens de eerste dotcom-boom wilden de zoekertjeskranten niet geloven dat hun grootste bron van inkomsten naar het internet zou verhuizen.

De zoekertjeskranten zagen niet in dat bijvoorbeeld jobadvertenties goedkoper en makkelijker online konden dan in een gedrukte en verdeelde krant. Ze hebben ook niet juist ingeschat hoe snel dat zou gebeuren na een bedrieglijk trage start. Ze waren niet alleen en de fouten bleven niet beperkt tot mediabedrijven. Merk op hoe retailers klagen dat klanten rechtstreeks hun spullen gaan kopen bij goedkopere buitenlandse websites.

Als we even doorspoelen naar 2012 zien we de opkomst van big data. En ook hier is er een stuitend gebrek aan bewustzijn.

Over de juiste betekenis van big data wordt nog steeds druk gepalaverd en de kwakzalvers beginnen alvast dezelfde verkoopspraatjes boven te halen als ze bij de cloud deden. Maar van een commercieel standpunt is het duidelijk: meer gegevens zijn beter. Sla alles op, analyseer het, zoek patronen en doe daar je voordeel mee.

De Amerikaanse winkelketen Target weet bijvoorbeeld wanneer een vrouw zwanger is aan de hand van haar boodschappenlijstjes. Aan de hand van historische gegevens van andere zwangere vrouwen kan de winkel dan voorspellen waar ze interesse in zal hebben.

Op het internet zijn de belangrijkste gegevens de hele stroom klikken die een surfer maakt: een overzicht van welke pagina’s wanneer bezocht zijn en hoe lang.

De klikstromen van individuele sites worden direct door de webserver gegenereerd, maar dat geeft een veel te nauw beeld op het leven van de gebruikers. Bedrijven met meerdere sites kunnen gegevens statistisch aan elkaar gaan koppelen en zo een veel vollediger beeld krijgen. Het beste overzicht vind je in advertentieplatformen zoals DoubleClick en AdBrite. Die combineren de klikstromen van alle sites waarop ze advertenties draaien.

Tot nu, want Facebook heeft nu het meest volledige zicht op het internetgedrag van de surfers.

Facebooks Like-knop staat op websites met en zonder andvertenties. De klikstroom kan rechtstreeks gelinkt worden aan de Facebookgebruiker of die nu op de knop klikt of niet. En dankzij cookies en de uniciteit van elke browser-plugin-combinatie kan Facebook de link zelfs maken als je niet ingelogd bent.

Een recente studie van The Wall Street Journal bij duizend van de belangrijkste websites wijst uit dat 75 procent van hen code op hun site heeft van sociale netwerken.

Facebook correleert de klikstormen met hun social graph, een soort stafkaart van iedereens vrienden en familie en met hun interesses en activiteiten. Die koppeling kan krachtig zijn. Zo wijst een studie uit 2009 van het MIT uit dat iemands sexuele oriëntatie is af te leiden uit diens Facebookcontacten.

Drie maanden geleden schetste de Franse digitale strateeg Frédéric Filloux een toekomstbeeld waarbij een analist aan een personeelsverantwoordelijke adviseert om een vrouw niet aan te nemen. De patronen in haar tweets suggereerden dat ze stiekem aan migraine leed en analyse van Facebookposts liet uitschijnen dat de kans op zwangerschap in de komende 18 maanden op 75 procent lag.

Gezien de vooruitgang in data mining en textuele analyse lijkt dit toekomstbeeld heel aannemelijk.

Maar de ruil tussen sociale netwerken en de sites die hun tools gebruiken is oneerlijk. Een lawine van ruwe gebruikersgegevens wordt naar de sociale media gestreamd via hun code die als een parasiet op de sites zit.

Soms wordt er zelfs meer dan de klikstromen doorgegeven. Als de Wall Street Journal naar een zeventigtal sites met login keek, dan gaven die in 25 procent van de gevallen gegevens zoals de echte naam, e-mailadres of andere persoonlijke gegevens door aan derden.

In ruil kregen de sites een goedkope Like-knop en misschien wat inlogcode. Geen van beide zijn echt duur om maken en bovendien is het aantal likes slechts een ijdelheids-cijfer. Er is amper een echte impact op de site.

Volgens de conventies beschouwen we deze architectuur als cloudachtig: de diensten van Facebook en consoorten inschakelen voor gespecialiseerde taakjes. Maar misschien moeten we het eens van de andere kant bekijken.

Sociale netwerken krijgen de mogelijkheid om efficiëntere en meer winstgevende analysemiddelen uit te werken. En de vuile taakjes zoals gebruikers werven en rekening houden met de echte wereld, dat wordt overgelaten aan de bedrijven zelf.

In het tijdperk van big data is degene met de gegevens de heerser.

En toch zouden sommige bedrijven graag van hun ruwe data van gebruikerscommentaren af geraken. Het is te moeilijk blijkbaar ondanks het inzicht dat het oplevert. Het is een van de zakelijke blinde vlekken, denk ik.