Wat de big data revolutie echt betekent
Over big data is al erg veel geschreven maar deze zes zaken doen er echt toe. Over de tumor van Steve Jobs, het griepvirus van Google, de huizen van Zillow en de voertuigen van UPS. Een artikel naar aanleiding van ons (gratis) seminarie over big data & datacenters op 5/2.
Google verwerkt meer dan 24 petabyte per dag. Op Facebook, dat tien jaar geleden nog niet eens bestond, worden ieder uur meer dan 10 miljoen foto’s geplaatst. Op YouTube elke seconde meer dan 1 uur videomateriaal.
De trend is bekend. In de voorbije twee jaar hebben we meer informatie geproduceerd dan in de 2000 jaar ervoor. Denk maar aan e-mails, digitale foto’s, bonuskaartgegevens, kaarten en financiële cijfers. Deze berg digitale gegevens wordt niet alleen opgeslagen, maar ook steeds meer en beter verwerkt.
In hun boek ‘De Big Data Revolutie’ brengen hoogleraar Viktor Mayer-Schönberg en journalist Kenneth Cukier aan de hand van voorbeelden en anekdotes de datarevolutie in kaart. Met deze bevindingen.
1. Weg met de steekproef
We hebben vandaag veel rekenkracht, opslagruimte en tools ter beschikking om de data te kunnen registeren en analyseren, en de kostprijs van dit alles is de laatste jaren opmerkelijk gedaald. Vandaag kunnen we veel meer gegevens analyseren die in verband staan met een bepaald verschijnsel.
In sommige gevallen gaan we zelfs alle data verwerken. “Dat is nieuw”, benadrukken de auteurs. “Sinds de negentiende eeuw maakt onze samenleving gebruik van steekproeven als er sprake is van grote getallen. Dat is nu niet meer het geval.” Of om het in vaktermen te stellen: N = alles.
Die trend is universeel. Daar waar bij DNA-onderzoek traditioneel maar een klein deel van de code werd onderzocht, liet bijvoorbeeld Steve Jobs, de legendarische Apple-directeur, als een van de eerste ter wereld zijn volledige zijn volledige DNA in kaart brengen, ook dat van zijn tumor. Hij betaalde ervoor een bedrag met zes cijfers voor, maar kreeg in ruil zijn complete genetische code. “Ik ben dus straks een van de eersten die een kanker als deze de baas is, of een van de laatste die er aan overluidt”, stelde hij. Helaas bleek het het laatste en verloor Jobs zijn gevecht tegen de tijd.
2. Big data is ruwe data
Als we grote hoeveelheden gegevens beschouwen, stappen we af van onze eis dat alles exact moet zijn. Big-data gegevens zijn vaak rommelig, variëren in kwaliteit en bevinden zich verspreid over talloze server ter wereld. Maar hun hoeveelheid maakt alles goed.
Wat we aan precisie op microniveau kwijtraken, winnen we aan inzicht op macroniveau. Of zoals onderzoeker Forrester het formuleert: “Soms kan twee plus twee 3,9 zijn en is dat goed genoeg”. Google Translate, de vertaalrobot van Google, baseert zich op miljarden Webpagina’s van vaak dubieuze vertalingen. Enkele jaren eerder bouwde IBM een gelijkaardige vertaalproject op basis van drie miljoen zinsparen aan correcte vertalingen. Maar vandaag werkt de Google vertaler het best.
3. Big data gaat niet over het waarom
Big data houdt zich bezig met het wat, niet met het waarom. Eerder correlatie dan causaliteit. We hoeven de oorzaak van verschijnsel niet te kennen, we laten de gegevens voor zichzelf spreken. Als we door talloze prijzen van vliegtickets kunnen verklaren, wanneer het ideale moment is om het goedkoopste vliegticket te kopen, dan verklaren we niks. We maken enkel een voorspelling.
Het koerierbedrijf UPS gebruikt sinds enkele jaren voorspellingsanalysesoftware om zijn vloot van tienduizenden auto’s te controleren en te weten wanneer er preventief onderhoud moet gebeuren. UPS vervangt stukken hiermee alleen wanneer het echt nodig is. Waarom of waardoor een voertuig stuk zou gaan, is niet meteen aan de orde. Enkel dat er tijdig actie wordt ondernomen.
4. Alles wordt data
De nieuwe term dataficatie verwijst naar het verzamelen van informatie over zo ongeveer alles ter wereld. Hieronder ook zaken die we vroeger helemaal niet als informatie beschouwden, zoals iemands locatie, de trillingen van een motor of de spanning op een brug. Zoektermen zijn data en verklaren waarom Google het best in staat is om het verloop van een griepvirus te voorspellen.
Al die data kunnen we op een nieuwe manier gebruiken, bijvoorbeeld om te voorspellen wat u moet betalen. In Groot-Brittanië kunnen automobilisten bijvoorbeeld een verzekering afsluiten waarbij de prijs afhangt van de plaatsen en tijden waarop ze daadwerkelijk rijden, en dus geen jaartarief. “Er is een jacht naar allerlei schatten geopend”, aldus de auteurs.
5. Big data verandert uw bedrijf en sector
In de twintigste eeuw verschoof de economische waarde van fysieke infrastructuur, zoals grond en fabrieken naar immateriële zoals merken en intellectuele eigendom. Daar zijn nu ook data bijgekomen.
Data kunnen worden hergebruikt. Onlangs richtte het Spaanse Telefonica een apart bedrijf op, Telefonica Digital Insights, dat aan winkeliers de locatiegegevens van abonnees verkoopt. Of ze worden samengesteld. Het Amerikaanse onroerendgoedbedrijf Zillow berekent bijvoorbeeld de prijs van uw huis op basis van alle data die het openbaar kan vinden, en doet dat erg nauwkeurig. Terwijl er ook data worden uitgebreid en hergebruikt. Denk maar aan Netflix en Amazon die bij het geven van aanbevelingen aanbevelingen terugvallen op eerdere aankopen, bekeken pagina’s of andere gebruikersbeoordelingen.
6. Big Data kent duistere kantjes
De samenleving heeft duizenden jaren ervaring met het bijsturen van menselijk gedrag, maar hoe sturen we een algoritme bij? Algoritmes voorspellen de kans dat iemand een hartaanval zal krijgen, en dus een hogere verzekeringspremie zal moeten betalen. Ze voorspellen dat je je hypotheek niet meer kan afbetalen, en dus geen lening meer krijgt. Of dat een misdaad gaat plegen, en dus preventief zal worden gearresteerd. “Dit leidt tot een ethische discussie over de rol van vrije wil tegenover de dictatuur van de gegevens.”
De Big Data Revolutie – hoe de data-explosie al onze vragen gaat beantwoorden, Viktor Mayer-Schönberg en journalist Kenneth Cukier, Maven Publishing, 2014, 303 pagina’s, ISBN: 9789490574901
Op 19 maart verzorgen Smart Business en ZDNet.be een (gratis) seminarie over end user computing & het post pc tijdperk. Meer info over dit seminarie vind je op: www.businessmeetsit.be .