7 maart 2017 02:50

“80 procent van de tijd gaat naar opkuisen van big data”

De weg van big data naar de uiteindelijke analyse ervan, bevat een hele belangrijke tussenstop: die van de data-wrangling, ofwel het opkuisen en aligneren van informatie komende uit verschillende data-bronnen.

De wereld van big data draait in de eerste plaats om enorme hoeveelheden gegevens. Dat spreekt voor zich. Maar waar je misschien niet meteen bij stilstaat, is dat al die data afkomstig zijn van meerdere bronnen, zowel intern als extern, en bijgevolg qua structuur en formaten danig kunnen verschillen. Zo wil je misschien data afkomstig van sociale media gaan combineren met transactionele data uit je eigen databank, of met logs van een webserver.

Om orde in de chaos te scheppen, moeten al die databronnen eerst op elkaar afgestemd worden. Pas daarna kunnen ze ingevoerd worden voor verdere analyse. Dat proces van opkuisen, afstemmen en selecteren van de gewenste data wordt data-wrangling genoemd. In veel gevallen is het ‘wranglen’ een handmatig proces.

Volgens Bertrand Cariou, verantwoordelijk voor marketing solutions en partners bij het Amerikaanse Trifacta, gaat liefst 80 procent van de analysetijd op aan het ‘wranglen’ van big data. Als dat proces vereenvoudigd kan worden, betekent dat niet alleen een enorme tijdswinst, het betekent ook dat bedrijven sneller de vruchten gaan plukken van de resultaten van de analyse en de beslissingen die daaruit voortvloeien.

Volgens onderzoek door Dresner Advisory Services, is Trifacta al drie jaar op rij de nummer één van leveranciers van datavoorbereidingstools voor eindgebruikers. Dergelijke tools willen de complexiteit uit big data rapportages halen en ze zo toegankelijker maken voor minder gespecialiseerde zakelijke gebruikers. Trifacta Wrangler is een tool die enerzijds de databronnen visualiseert om eenvoudig te kunnen aanpassen, en anderzijds suggesties doet aan de gebruiker, onder andere op basis van machine learning, over de volgende logische acties. “We zijn wat dat betreft uniek”, aldus Cariou. Concurrenten van Trifacta zijn onder meer Datameer en, vooral, Paxata.

Hadoop

Trifacta kreeg sinds 2012 nogal wat tractie doordat het een gratis versie van hun Wrangler-tool beschikbaar stelt. “Deze versie werkt lokaal, en is beperkt tot een dataset van maximaal 100 megabyte groot, maar we merken dat dit een ideaal instappunt is voor toekomstige klanten”, legt Bertrand Cariou uit. Momenteel zijn er zo’n 10.000 gebruikers van Trifacta Wrangler.

De betalende Enterprise-variant van Wrangler legt geen beperkingen op qua datagrootte, maar vereist wel dat er een werkzame Hadoop-omgeving aanwezig is, wat zeker bij minder grote klanten niet zo vanzelfsprekend is.

Dat er een gat bestaat tussen het gratis en het betalende product, beseffen ze bij Trifacta maar al te goed. Onlangs lanceerde het een tussenoplossing, Wrangler Edge, waarbij de vereiste voor Hadoop wegvalt, maar er toch gewerkt kan worden met grote datasets.

Een relatief nieuwe markt die Trifacta momenteel volop aanboort, is die van de financiële instellingen, waar wettelijk opgelegde rapportages aan controle-instanties – soms zelfs dagelijks uit te voeren – steeds meer kosten met zich meebrengen, voornamelijk bij Europese klanten. Bertrand Cariou: “Momenteel bestaat 60 tot 70 procent van ons Europese klantenbestand uit financiële instellingen.”

Dit artikel is onderdeel van onze “Silicon Valley Business Applications” special, waarbij Smart Business exclusief op de koffie gaat bij enkele van de meestbelovende Amerikaanse ondernemingen en start-ups die met hun technologie de businesswereld op hun kop willen zetten.

//www.smartbiz.be/achtergrond/170549/ontmoet-9-amerikaanse-start-ups-die-de-b2b-sector-doen-daveren-deel-1/