Alles over Big Data
De winnaars van morgen zijn die bedrijven die informatie kunnen puren uit de gigantische – en snel toenemende – hoeveelheid data die ze ter beschikking hebben. Big data is dé IT-trend die u hierbij moet helpen. Over speeddating, oude bibliotheken en nieuwe HR-profielen.
Onderzoeksbureau Gartner ziet de hoeveelheid data de komende vijf jaar met maar liefst 800 procent toenemen. Data zullen de komende jaren bijvoorbeeld sneller groeien dan chiptechnologie en sneller dan bandbreedte. Waar komt die groei ineens vandaan? Simpel: van de forse uitbreiding van opslagcapaciteit tegen sterk gedaalde kosten.
Grondslagen zijn de verdere digitalisering, de groei van mobiele data, camera’s, sensoren en alle data op internet. Of klanten die via hun klantenkaart of uw website al dan niet bewust alsmaar meer data ter beschikking stellen. Een gemiddeld bedrijf met minstens duizend werknemers beschikt vandaag gemiddeld over 200 terabyte (lees: 200.000 gigabyte) aan opgeslagen digitale data.
Dat is het dubbele van wat een retailgigant als Wal-Mart zowat tien jaar geleden bewaarde, zo berekende adviesbureau McKinsey. Het komt erop aan bruikbare informatie te vinden tussen de bergen aan data, niet alleen afkomstig van bedrijfsapplicaties maar ook van sociale media en andere externe bronnen.
“Want de informatiehorizon van menig bedrijf is een stuk breder geworden”, benadrukt Peter Hinssen, thoughtleader bij Across Consulting. Dat schept mogelijkheden voor bedrijven, en sommigen gebruiken die nu al, vindt Hinssen. Hij haalt het voorbeeld aan van Nike: “Denk maar aan hun toepassing waarbij joggers hun gedetailleerd loopparcours naar het internet kunnen uploaden en delen met anderen."
Op die manier komt Nike heel veel te weten; niet alleen waar je loopt, maar ook waar je pauzeert. Ideaal, lijkt me, voor een Starbucks of een andere zaak die een nieuwe vestiging wil openen”, klinkt het. Een ander bedrijf dat kan inspelen op de trend van Big Data is LinkedIn, een sociaal netwerk voor zakelijke profielen.
“LinkedIn weet meer over de personeelsleden van Microsoft dan het HR-departement van Microsoft zelf”, stelt hij. “Het zijn maar een paar voorbeelden die aantonen dat data de olie van de 21ste eeuw zijn.”
Speeddating
Big Data is de naam van de trend en uitdaging om waarde te puren uit de gigantische hoeveelheid data. Hoewel Big Data een relatief jonge term is, levert een Google-zoekopdracht over dit onderwerp meer dan negen miljoen resultaten op. Colin Linsky, sectorleader Predictive Analytics van IBM, vergeleek de waarde ervan onlangs met speeddating.
“Bij een speeddate krijg je een beperkte hoeveelheid informatie waarop je een beslissing moet baseren. Als je over meer informatie beschikt, uit verschillende situaties en over een langere periode verzameld, dan kun je een betere beslissing nemen.” De trend wordt sterk gevoed door de IT-sector. Nu probeert de IT-industrie ondernemingen al jaren het nodige materiaal te bieden voor het alsmaar groeiende data-universum.
Datawarehousing beoogt bijvoorbeeld gegevens te structureren en te bundelen, teneinde ze te kunnen analyseren. Data Deduplicatie probeert de data dan weer te ontdoen van de versies van dezelfde bestanden die in ieder datacenter worden aangetroffen.
Oude bibliotheken
Al die technieken vertrekken vanuit de databerg om problemen op te lossen. Hinssen vergelijkt het met de bibliotheek in het Vaticaan: “Die was er vooral op gericht om te bewaren, te structureren en niets te verliezen. Bij veel bedrijven is dat vandaag ook zo. Ze hebben af te rekenen met het TMI-syndroom: too much information.
"Maar de overvloed aan data is niet het probleem”, meent Hinssen. "Het gaat om het gebrek aan inzicht in dat alles, de nood om al die data goed te filteren."
Big Data draait de rollen om en beschouwt die enorme berg gegevens als opportuniteit. Met name de grote opslag- en dataspecialisten, zoals EMC, HP en IBM, zien mogelijkheden om uit de schat aan ruwe, ongestructureerde gegevens die in diverse datacentra liggen opgeslagen zinvolle strategische informatie te puren.
Naast de traditionele IT-namen associëren we ook het openbronframework Hadoop met het beheer van Big Data: het linken met gigantische datasets, het tegelijkertijd berekenen van meerdere scenario"s om op basis daarvan beslissingen te nemen. Hadoop wordt bijvoorbeeld ingezet door internetbedrijven als Yahoo en Facebook.
Als we de grote partijen in deze branche mogen geloven, is Big Data samen met cloud computing het volgende terrein waar IT in de komende jaren zijn meerwaarde voor organisaties kan bewijzen. Pat Gelsinger, CTO van EMC, heeft het in dit kader over de volgende golf in datamodellen. “Het gaat om voorspellende analyses, gebaseerd op gigantische hoeveelheden ongestructureerde data”, vat hij het samen.
Maar die analyse moet snel gebeuren, en op grote schaal. “Google geeft je bijvoorbeeld ook niet slechts één keer per week zoekresultaten die zich dan bijvoorbeeld beperken tot Noord-Amerika. Neen, de kracht is dat zij alles overzien en alsmaar sneller werken.”
Nieuwe profielen
Wat Big Data anders maakt dan andere dataverzamelingen of -technieken, is dat het gaat om datasets die met normale tools eigenlijk niet meer te verwerken zijn. In feite gaat het bij Big Data om datamining, maar dan op ongekende schaal. Zoals enorme hoeveelheden gegevens die bijvoorbeeld door weerstations of geheime diensten verzameld worden.
Nieuwe toepassingen dus, en eigenlijk ook nieuwe profielen van medewerkers. Want om toch zinnige strategische informatie uit dergelijke verzamelingen te kunnen halen, heb je gespecialiseerd volk nodig: de zogenaamde datascientists.
Volgens Pat Gelsinger zijn dat mensen die, naast de gebruikelijke analytische en statistische kennis, een gave hebben om grote hoeveelheden gegevens gericht te doorzoeken op voor de business bruikbare informatie. ”Ze beslissen welke analytics het interessantst zijn. En analyseren continu data om te evalueren hoe men een beter resultaat kan realiseren.”