5 big data trends voor 2020 en 2021
De term ‘big data’ werd voor het eerst in 1980 gebruikt door de socioloog Charles Tilly. In 2013 werd het woord opgenomen in de Oxford English Dictionary. Vandaag, exact 40 jaar na het verschijnen van de term, is big data niet meer weg te denken uit de bedrijfswereld. Waar de technologie vroeger enkel door grote bedrijven als Google en Facebook werd gebruikt, vinden nu kmo’s hun weg naar deze innovatie. Ook kreeg big data over de jaren heen steeds meer toepassingen en specialisaties. Wat zijn de belangrijkste trends voor big data in 2020 en 2021? En wat is het voordeel van deze technologie voor bedrijven?
Big data 101
Aan de basis van big data ligt geen speciale technologie, maar een sociologisch feit. We produceren allemaal samen steeds meer data. IDC verwacht dat de hoeveelheid gegevens die we in de toekomst zullen voortbrengen elke twee jaar zal verdubbelen. In 2025 zullen we samen meer dan 175 zettabytes aan informatie genereren. En dat is nog maar het minimum. De voorbije decennia zagen steeds meer bedrijven de waarde van deze gegevensstroom in. Gigantische hoeveelheden aan informatie bieden organisaties de kans om meer te leren over hun klanten, werknemers en processen. En zo kunnen ze producten verbeteren, workflows stroomlijnen en meer inzicht krijgen in de markt.
Maar big data is niet gewoon de optelsom van heel veel gegevens. Het Amerikaanse onderzoeksbureau Gartner definieert drie criteria waaraan een gegevensverzameling moet voldoen om big data te kunnen worden genoemd: a) de hoeveelheid data; b) de snelheid waarmee de data binnenkomen en/of opgevraagd worden; en c) de diversiteit van de data. Die snelle stromen van diverse data in immense hoeveelheden hebben voor organisaties veel voordelen. Je kan die gegevens inzetten op verschillende departementen: van marketing en sales tot customer service. Kostenbesparingen, meer efficiëntie en een betere verkoop zijn de top drie redenen waarom bedrijven ervoor kiezen om met big data te werken.
Top 5 big data trends
Bg data wordt nu met verschillende nieuwe technologieën gecombineerd om er extra waarde uit te halen. En soms krijgt big data ook extra toepassingen in nieuwe domeinen. DataOps, augmented analytics en continuous intelligence zijn een aantal trends die het datalandschap vandaag definiëren.
1. DataOps
DataOps is de afkorting van ‘data operations’. Het is de aanduiding van een nieuwe methodologie die de kwaliteit van data-analyses moet verbeteren en het proces ervan moet versnellen. Net zoals DevOps focust DataOps op een betere samenwerking tussen IT-teams om de levenscyclus van data efficiënter en sneller te maken. Hoewel de term ‘DataOps’ voor het eerst gebruikt werd in 2014, zal 2020 zowel volgens Gartner, Eckerson, TDWI als andere organisaties een belangrijk jaar worden voor DataOps.
Binnen een onderneming zijn er verschillende mensen met data bezig: datawetenschappers, dashboardontwikkelaars, data-ontwerpers, database-ontwikkelaars en andere developers werken aan datastromen en datakwaliteit. Maar de communicatie tussen die teams loopt soms stroef. DataOps biedt een werkwijze die de kennis en inspanningen van alle medewerkers samenbrengt. Het biedt een aantal richtlijnen en best practices voor mensen, processen en tools die ervoor moeten zorgen dat bedrijven hun data snel kunnen omzetten in betrouwbare inzichten: van de verzameling tot aan het eindproduct.
2. Augmented analytics
Automatisatie is in 2020 het sleutelwoord. Die trend trekt zich ook door op het gebied van data-analyses. Augmented analytics combineert data-analyse met machine learning en natural language processing (NLP). Hierdoor wordt het analyseproces voor een stuk geautomatiseerd. Dit maakt het eenvoudiger voor bedrijven om data-analyses te ontwikkelen, te delen en te interpreteren. Daarnaast biedt augmented analytics bedrijven door middel van AI ook voorspellende inzichten over hun data.
Het grootste voordeel van augmented analytics is echter tijdswinst. Het proces van data-analyse gebeurt in vijf stappen: data verzamelen, voorbereiden, analyseren, inzichten onttrekken en inzichten communiceren. Volgens een recente studie van CrowdFlower spenderen datawetenschappers in bedrijven maar liefst 80 procent van hun tijd aan het verzamelen en voorbereiden van data voor analyses. Dit tijdrovende werk kan door augmented analytics voor een groot deel worden beperkt en uitgevoerd met minder fouten. Zo kunnen data-analisten zich bezighouden met belangrijkere taken die meer creativiteit en strategie vergen. In 2020 zal software voor deze toepassingen volgens experts dan ook de belangrijkste investering worden op het gebied van analytics en business intelligence.
3. Continuous intelligence
Volgens Gartner zullen meer dan de helft van de bedrijfssystemen in 2020 gebruik maken van continuous intelligence (CI), een tool die business intelligence combineert met augmented analytics. CI helpt bedrijven om gegevens uit eerdere ervaringen in realtime te analyseren en zo hun operaties te verbeteren. De traditionele BI-tools schieten op dit terrein tekort omdat ze van oudsher vertrouwen op het menselijk ingrijpen. CI haalt deze menselijke component eruit en automatiseert het analyse- en beslissingsproces.
Continuous intelligence maakt gebruik van een andere trend die we al hebben gezien: augmented analytics. Door die techniek toe te passen op bedrijfsgegevens stelt CI organisaties in staat om hun bedrijfsoperaties te verbeteren. Hoewel de toepassingen voor CI nog volop in ontwikkeling zijn, worden de mogelijkheden vandaag al duidelijk. Zo zouden bedrijven betere klantenondersteuning kunnen bieden, consumenten speciale aanbieding sturen op maat van hun profiel en het beslissingsproces binnen de onderneming verbeteren.
4. Generative Adversarial Networks
Een vierde opkomende trend voor big data zijn Generative Adversarial Networks of GANs, een specifiek type machine learning framework dat in 2014 werd ontworpen door ontwikkelaar Ian Goodfellow. Met dit framework haal je de ‘big’ uit big data. Normaal gezien heb je enorme hoeveelheden gegevens nodig om een model te trainen. Hoe meer data je als input aan het systeem geeft, hoe beter het model voorspellende analyses kan uitvoeren. Toch is het niet voor elke onderneming eenvoudig om aan die grote hoeveelheden data te geraken. Vaak liggen internationale en nationale wetgeving zoals de GPDR hier in de weg of zijn er gewoon niet genoeg gegevens voorhanden.
GANs lossen dat probleem op. Met dit machine learning framework kan je op basis van een trainingset van historische gegevens nieuwe data genereren die dezelfde statistieken vertonen als de input. Je creëert als het ware extra data met dezelfde kwaliteiten. De website ThisPersonDoesNotExist.com toont bijvoorbeeld levensechte gezichten van personen die niet bestaan. Ook kan je met GANs fake nieuwsartikelen genereren, 3D-modellen van objecten op een afbeelding maken of het effect van klimaatverandering op een specifiek huis simuleren. Bedrijven die dus niet beschikken over enorme hoeveelheden data, maar wel analyses willen uitvoeren, kunnen dus gebruik maken van GANs om hun datahonger te stillen.
5. Data en ethiek
In 2020 zullen bedrijven niet alleen aandacht besteden aan de kwaliteit van hun data en de inzichten die ze eraan kunnen onttrekken. Ook ethiek zal een belangrijke rol spelen. Nu algoritmes een steeds prominentere rol gaan spelen in beslissingsprocessen, zal dit topic het maatschappelijk debat gaan domineren. In de Verenigde Staten hebben verschillende incidenten met betrekking tot racisme er bijvoorbeeld toe geleid dat ook techbedrijven in eigen boezem kijken.
Verschillende onderzoeken hebben namelijk aangetoond dat grote verzamelingen van bedrijfsdata vaak een ‘bias’ of vooroordeel tot stand brengen in analyses. Zo werkt gezichtsherkenningssoftware op basis van big data minder goed voor vrouwen, mensen met een andere huidskleur, kinderen en ouderen dan voor blanke mannen. De datasets waarvan de software gebruik maakt bevat immer meer beelden van blanke mannen dan van anderen, waardoor het algoritme beter getraind wordt op die categorie mensen. We verwachten dan ook dat bedrijven hun data in 2020 zullen controleren op deze vooroordelen.