Reboot: Databanken
De zomer is de perfecte periode om uw kennis van business IT af te stoffen. De reeks Reboot overloopt enkele bekende en minder bekende begrippen uit elk segment van de sector.
1. Wat zijn databanken?
Bedrijven slaan gegevens of data. Over klanten en leveranciers bijvoorbeeld, of over inkomende en uitgaande facturen en financiële verrichtingen. Een overheidsinstelling bewaart dan weer gegevens over dossiers en aanvragers.
Voor elke soort gegevens wordt een tabel gebouwd: een tabel KLANT, een tabel LEVERANCIER. een tabel INKOMENDE FACTUREN enzovoort. De rijen van de tabel KLANT bevatten telkens de gegevens van één klant. Die gegevens worden gerangschikt in kolommen: de kolom NAAM, de kolom STRAAT, de kolom GEMEENTE, de kolom BTW-NUMMER enzovoort. Een groep tabellen die bij elkaar horen, noemen we een databank. Die wordt gebouwd door een informaticus. Hij of zij gebruikt daarvoor een ‘data base management system’ (DBMS).
2. Hoe worden gegevens ingegeven en bijgewerkt?
Eindgebruikers werken met een softwaretoepassing. Bij het ingeven worden de gegevens door de toepassing gecontroleerd. Soms wordt er ook validatie voorzien op het niveau van de databank.
Informatici hebben doorgaans rechtstreeks toegang tot de databank. Zij kunnen gegevens inbrengen, wijzigen en schrappen zonder de toepassing te gebruiken. Zo omzeilen ze de validatie door de toepassing, maar niet de validatie op het niveau van de databank.
De beheerder van de databank creëert gebruikers en geeft hen toegangsrechten, bijvoorbeeld alleen-lezen of updaten. Er bestaan verschillende types databanken, maar het populairste type is de relationele databank, met SQL als taal voor het opvragen en bijwerken van gegevens.
3. Hoe worden de gegevens in de databank geanalyseerd?
Een bedrijf wil een overzicht van de verkoop per product(groep), per periode, per regio, per verkoopkanaal. Of een overheidsinstelling wil weten hoeveel dossiers er per jaar verwerkt worden. Dergelijke analyse gebeurt via de toepassing, of via het DBMS. Wanneer een organisatie met zo’n analyse begint, merkt men overigens soms dat er een probleem is met de juistheid van de gegevens: een probleem van ‘data quality’.
Sommige organisaties hebben meer dan één databank. Dan kan het nodig zijn om een nieuwe databank te bouwen, en daar de gegevens uit verschillende bronnen in samen te brengen. Gaat het om grote hoeveelheden (miljoenen) gegevens, dan maakt men gebruik van een datawarehouse en van toepassingen voor business intelligence. Het komt voor dat de databanken elkaar tegenspreken. Dan is het tijd voor Master Data Management (zie Reboot Analytics & BI).
4. Wat zijn (on)gestructureerde gegevens?
Gestructureerde gegevens kunt u opslaan in tabellen en kolommen, bijvoorbeeld woorden en getallen. Ongestructureerde gegevens zijn bijvoorbeeld digitale foto’s van personen, huizen, machines en van schadegevallen. Andere voorbeelden zijn PDF-files met handleidingen, verslagen of prijsoffertes, geografische gegevens (GPS-coördinaten), audio-files (interview) of video-opnames van bewakingscamera’s.
5. Wat is de impact van big data?
‘Big data’ is de naam voor de grote hoeveelheden gegevens. De IT-markt, waaronder de aanbieders van software rond databanken, hebben intussen een antwoord op de trend van big data. Want niet alleen slaat u veel grotere hoeveelheden gegevens op, zoals positie-gegevens van mobiel toestellen, u slaat gegevens op van een ander type dan vroeger, zoals foto’s of bewegende beelden. Ook logfiles van websites worden snel groot. Misschien analyseert u ook al deze interne of externe data, zoals wat er over u gezegd wordt op sociale media. Of misschien wil u in real-time de gegevens over het energieverbruik van uw productiemachines analyseren.
Voor gevallen, waar grote hoeveelheden informatie moeten teruggebracht worden tot hanteerbare hoeveelheden, ontwikkelde aanbieders zoals Oracle, IBM, SAP en Microsoft aangepaste toepassingen. Een bekende toepassing in de wereld van Big Data is bovendien ook Hadoop, een open-source raamwerk waarmee applicaties grote hoeveelheden aan (ongestructureerde) data kunnen verwerken.