Big data: de aanpak na de hype
Iedereen kent intussen de verhalen over spectaculaire omzetstijgingen dankzij het kundig inzetten van big data.
De Amerikaanse politiediensten die misdaad kunnen voorspellen dankzij het verbinden van enkele variabelen zoals weer, tijdstip en locatie. Of de televisiestations die Twitterstromen analyseren om de populariteit van kandidaten te meten in realityshows en op basis daarvan de kandidaten bijsturen. Het zijn maar enkele voorbeelden van de big business die big data geworden is.
[related_article id=”162120″]
Maar is "big data" ook iets voor de gemiddelde Belgisch onderneming met een beperkt budget en bescheiden verwachtingen? En zo ja, wat heb je er dan voor nodig? Aan de hand van enkele gerichte vragen helpen we je op weg.
1. Wat is big data?
Ondanks – of net dankzij – de hype is het moeilijk een eenduidige definitie te vinden voor "big data". De omschrijvingen variëren van ‘grote bestanden’ over ‘grote hoeveelheden gegevens’ tot ‘ongestructureerde gegevens’ en zelfs ‘piepkleine bestanden’.
Meestal wordt big data gelinkt aan de "3 V"s":
- Volume kan zowel te maken hebben met de omvang van de bestanden zelf (hele grote bestanden zoals audio- en videofragmenten, medische beeldvorming en beelden in hoge resolutie) als op de hoeveelheid gegevens: gigantische hoeveelheden kleine bestanden, zoals bijvoorbeeld de gegevens die continu door sensors in de grond of in een koelomgeving naar een centrale server worden gestuurd.
- Variety geeft aan dat bigdatabestanden ook een verzameling zeer uiteenlopende bestanden kan zijn: zowel Word-bestanden als Twitter feeds en andere gegevensbronnen.
- Velocity, ten slotte, duidt op de snelheid waarmee big data meestal geassocieerd wordt. Niet alleen de snelheid om de gegevens te capteren en op te slaan, maar ook en vooral om ze te ontdekken en te analyseren.
2. Iets voor jou?
Voorlopig loopt het voor de meeste kleine en middelgrote bedrijven nog zo"n vaart niet. De hoeveelheid op te slagen bestanden en de snelheid waarmee die moeten kunnen worden verwerkt, blijft voorlopig beperkt. Bovendien zijn de meeste budgetten de voorbije crisisjaren gestagneerd.
Maar je kan er nu al donder op zeggen dat de hoeveelheid data alleen maar zal toenemen, en wellicht sneller dan het tempo van vandaag. Anderzijds worden de software- en hardwaretools om gegevens aan sneltreinvaart te analyseren wellicht ook steeds goedkoper. Daardoor kan (en moet?) je binnen vijf jaar als kleinere onderneming wellicht dezelfde middelen inzetten als de grote spelers vandaag.
Het loont dus misschien de moeite om vandaag al na te denken over die onafwendbare toekomst en nu al een kleine voorsprong te nemen.
3. Wat heb je nodig?
Bij het aanschaffen van storage hardware die "big data ready" is, houdt u best met het volgende rekening:
Virtuele servers vragen om virtuele storage. Wie een fysieke server opdeelt in virtuele machines en elk van die machines een virtuele opslagcapaciteit toekent van enkele tientallen of honderden gigabytes, ziet dat automatisch vertaald in heel wat fysieke opslagcapaciteit. Door ook de opslagapparatuur van een virtuele laag te voorzien, hoeven al deze virtuele servers geen fysieke opslagruimte toegewezen te krijgen, maar kunnen zij putten uit een virtuele pool.
Met de juiste virtualisatiesoftware voorkom je bovendien dat je afhankelijk wordt van één hardwareleverancier, voegt Kim Apers, presales manager van Symantec Belux er nog aan toe. "Met software kan je de compressie en deduplicatie in deze virtuele omgeving laten plaatsvinden in plaats van in de opslagdozen zelf. Zo voorkom je dat je de gegevens weer moet opblazen en wegschrijven voor je ze naar een nieuw opslagplatform kan plaatsen. Bovendien kunnen gegevens al terug naar de snelle opslagmedia gebracht worden nog voor je eraan denkt dat je ze nodig hebt, zoals financiële gegevens naar het einde van elk kwartaal toe."
Streef naar standaarden. Zowel voor de virtualisatie die we hierboven beschrijven als voor de volledige hardwareomgeving loont het om zoveel mogelijk met industriestandaarden te werken. Zo voorkom je extra kosten bij het integreren en aanpassen aan een exotische standaard, en bovendien is het veel eenvoudiger en vlotter om je omgeving uit te breiden wanneer nodig.
Wees realistisch. Wie razendsnel zijn gegevens wil doorzoeken op zoek naar realtime antwoorden, doet er goed aan om te investeren in SSD (solid state disk) storage: supersnelle schijven die gebruik maken van optische middelen in plaats van mechanische om gegevens weg te schrijven en te lezen. Dat is niet alleen veel sneller, maar ook zuiniger.
Maar wil je wel alle gegevens doorzoeken? Als de gegevens van de voorbije twee jaren volstaan voor je analyse, hoef je niet jouw volledige archief op SSD-media te bewaren. Door deze keuzes doordacht te maken, kan je al veel geld besparen
Wees voorzichtig. Het succes van big data staat of valt met de beschikbaarheid van gegevens. Gegevensverlies moet dus kost wat kost vermeden worden.
Een eerste stap in de goede richting is het voorzien van een RAID-opslaginfrastructuur. RAID staat voor Redundant Array of Independent Disks, een configuratie waarbij de ene schijf naar de andere wordt gekopieerd, zodat het uitvallen van een schijf niet tot gegevensverlies leidt.
Maar dit is niet hetzelfde als back-ups. Naast de RAID-configuratie moet u dus ook de nodige capaciteit voorzien voor reservekopieën, op minder dure schijven of zelfs op tape, maar in elk geval bij voorkeur naar een andere locatie.
Vergeet het netwerk niet. Snelle analyses zijn maar zo snel als het netwerk het toelaat. Zelfs wie de allersnelste analysesoftware ter wereld op zijn gegevens loslaat, zal maar aan een slakkengang bediend worden wanneer die gegevens door een Mbps-kabel worden gejaagd.
Laat je dus niet misleiden door bigdatademo"s bij de leverancier. Zorg dat je die toepassing ook in jouw eigen omgeving aan het werk ziet en neem zonodig maatregelen. "Hou er bovendien rekening mee dat je gegevens misschien moeten geëncrypteerd worden voor ze worden opgeslagen", waarschuwt Steven De Ruyver, country manager van Brocade Belux. "Ook dat vreet extra performance, waarop jouw netwerk voorzien moet zijn."
4. Wat moet je zeker doen?
Voorzie de juiste metadata. Niet onbelangrijk om van je bigdataproject een succes te maken. Metadata zijn de gegevens over een bestand die aan het bestand worden toegevoegd. Informatie zoals datum van aanmaak, de persoon die het bestand heeft gecreëerd, woorden die de inhoud van het bestand beschrijven, enzovoort zijn typische metadata.
Tegenwoordig horen ook gegevens zoals de locatie van een persoon en tijdstip waarop iemand een bepaald document via een browser heeft bekeken, tot de relevante metadata. Nu gegevens van bijvoorbeeld GPS en tachometers steeds vaker in het netwerk worden geschakeld, zijn ook de snelheid en de richting relevante metadata.
Zo worden big data zelfs nog groter, merkt John Gantz van IDC op. “Big data is niet alleen de informatie in het bestand of het gebruik van die informatie, maar ook de analyse van alle gegevens die rond de content zweven.” Bij kleine bestanden kunnen de metadata dus groter zijn dan de data zelf. Het lijkt wat tegenstrijdig, maar ze zijn echt wel de extra opslagcapaciteit waard.
Zoek naar automatisering. Storage in het tijdperk van big data kan vaak in een complexe architectuur resulteren, waarbij gegevens van het ene medium naar het andere moeten verhuizen en terug. Als je dit allemaal manueel moet beheren en opvolgen, besteed je soms een veelvoud van de hardware aan het beheer en onderhoud van uw opslagomgeving.
Het loont dus om uit te kijken naar software die deze taak goeddeels uit je handen neemt, bijvoorbeeld door gegevens van meer dan enkele maanden oud naar een goedkoper opslagmedium te plaatsen, zonder dat de eindgebruiker hier iets van merkt.
Denk aan de cloud. Wie geen zin heeft om nu al veel te investeren in hardware en software om die razendsnelle analyses mogelijk te maken, kan wellicht in het achterhoofd houden dat ook big data ooit als een service zal worden aangeboden.
"In België staat dit nog niet in de kinderschoenen, maar wordt nu pas het wiegje in elkaar gestoken", zo schetst Steven De Ruyver, country manager van Brocade Belux. "Maar op termijn is dit voor kleinere bedrijven wellicht de beste manier om snel te kunnen schakelen." Ook hier is het streven naar industriestandaarden in jouw omgeving een goede manier om je hierop voor te bereiden.