6 september 2012 11:04

Big data: “Informatie is de nieuwe olie”

De wereld van ‘big data’ heeft vele facetten. Big data moeten worden beheerd, beschermd, opgeslagen, over netwerken worden verstuurd, en – last but not least – ze moeten worden doorzocht op waardevolle informatie.

“Informatie is de nieuwe olie”, zo omschrijft Peter Hinssen het in één van de publicaties van de Data Science Series. “Elk van ons heeft niet alleen enorme hoeveelheden informatie te verwerken, we laten ook enorme sporen van informatie achter.” Deze informatie is vaak in ongestructureerde vorm en wordt mede daarom tot het domein van de big data gerekend. Dat heeft te maken met de evolutie van klantenverwachting, meent Peter Hinssen: “Vroeger benaderden bedrijven hun klanten als gemiddelden, als deel van een specifieke categorie, met bijhorende verwachtingen en gedrag. Dat kon je nog in databases gieten. Maar mensen willen niet tot een categorie behoren of als een gemiddelde worden beschouwd, maar als unieke individu’s die met hoogst gepersonaliseerde boodschappen worden aangesproken. Daar kunt u als bedrijf enkel op inspelen als u gebruik maakt van big data.”

”Informatie is de nieuwe olie”, volgens Peter Hinssen. Een rijkdom, maar je moet ze ontginnen.

Definitie
Of er ooit een alomvattende definitie komt, durven we betwijfelen. IDC beschrijft ‘big data’ als volgt: “Big data technologieën beschrijven een nieuwe generatie van technologieën en architecturen, ontworpen om economische waarde te halen uit hele grote volumes van zeer uiteenlopende soorten gegevens, door deze gegevens aan hoge snelheid te vatten, te ontdekken en/of te analyseren.”

Los van de vage en wollige omschrijving kunnen we hier toch een aantal kenmerken uit distilleren: naast het volume van het bestand zelf of van het aantal bestanden, bepaalt ook de variatie in types bestanden of men al dan niet van big data spreekt. En naast de op zich al ruim voldoende uitdaging van het opslaan en recupereren van gegevens, is er een nog veel grotere uitdaging: informatie distilleren uit de gegevensberg.

Opslag van data is één probleem. Het verwerken tot informatie is een ander.

Digitale schaduw
IDC geeft zelf al aan waar de sleutel tot het succes ligt: de metadata. Dat zijn de gegevens over een bestand die aan het bestand worden toegevoegd. Zo worden big data zelfs nog groter, merkt John Gantz van IDC op: “Het is niet alleen de informatie in het bestand of het gebruiken van die informatie, maar ook de analyse van alle gegevens die rond de content hangen of zweven.”

De idee van gegevens die rond de content hangen, is nauw verbonden met de vaststelling dat onze digitale schaduw groter is dan wijzelf. Die digitale schaduw is alles wat we achterlaten aan informatie zonder zelf die content (bewust) te hebben gecreëerd: foto’s waarin we worden getagd, geldafhalingen, bewakingscamera’s, medische dossiers, enzovoort. Veel van die informatie behoort tot de privésfeer en daar zouden we niet graag mee geconfronteerd worden door een bedrijf dat deze informatie commercieel hoopt te exploiteren. Naast de uitdaging van analyse en ontdekking zal dus ook de grens tussen privacy en exploiteerbaarheid een stevige uitdaging worden.