Dubbels schrappen loont
Door alle hype rond virtualisatie werd de voorbije jaren minder aandacht besteed aan een andere, vaak in producten ingebedde technologie: deduplicatie. Nochtans kan ook deze voor indrukwekkende resultaten zorgen. Een kennismaking met deze technologie in zes vragen en antwoorden.
1.Wat is deduplicatie?
Deduplicatie betekent letterlijk: ontdubbeling. Heel eenvoudig uitgelegd worden gegevens en bestanden dus ontdubbeld voor ze worden opgeslagen. Zo kan men bijzonder veel ruimte uitsparen die anders aan overbodige kopieën zou worden verkwist. Een presentatie die bijvoorbeeld doorgestuurd wordt naar tien andere personen staat zonder deduplicatie elf keer opgeslagen.
2. Wat is deduplicatie niet?
Deduplicatie mag niet worden verward met compressie. Ook al is het doel hetzelfde – ervoor zorgen dat bestanden minder ruimte in beslag nemen – toch verschilt de methode enorm.
Bij deduplicatie wordt op zoek gegaan naar bestanden of gegevensreeksen die verschillende malen voorkomen, bij compressie gaat men eerder op zoek naar manieren om bestanden te verkleinen, zoals het verwijderen van overbodige spaties of het vervangen van lange tekenreeksen door kortere representaties.
3. Wat zijn de voordelen?
De voordelen van deduplicatie liggen voor de hand: door gegevens zo veel mogelijk tot één exemplaar te beperken, kan men enorm besparen op opslagruimte. Het bovenstaande voorbeeld is extreem, en wordt vaak misbruikt door leveranciers om ruimtebesparingen tot tachtig of negentig procent te beloven. Anderzijds zijn er wel degelijk omgevingen waar die tachtig à negentig procent makkelijk haalbaar zijn.
Denk alleen al aan de geregelde backupcycli voor bepaalde bestanden en volumes: als niet-gewijzigde bestanden vijf of meer keren worden opgeslagen, is dat een veel zwaardere belasting voor de back-upomgeving dan als ze eenmaal worden opgeslagen en de volgende malen gewoon wordt verwezen naar dat ene ongewijzigde bestand.
De bespaarde opslagruimte betekent immers niet alleen dat u minder hardware moet aanschaffen maar ook dat er geen extra stroomvoorziening of koeling is vereist om deze hardware draaiende te houden. Deduplicatie is dus bijzonder ‘groen’, om het even in die termen uit te drukken.
Het maakt ook opslag op schijf veel meer betaalbaar en zorgt er dus ook voor dat gegevens langer op schijf kunnen worden bewaard voor ze naar goedkopere opslagmedia zoals tape worden overgezet. Dit scheelt een enorme slok op de borrel als het erop aankomt om deze gegevens te recupereren in geval van nood: restores van op schijf gaan gevoelig sneller dan van op tape of andere verwijderbare media.
Bovendien vermindert u een aantal risico’s die traditioneel met back-ups naar tape gepaard gaan. Denk maar aan het transport van de tapes van de ene locatie naar de andere.
Veel van onze gesprekspartners pleiten dan ook voor een definitieve afschaffing van de tapes: “de gevaren en kosten verbonden met tapehandling vallen weg en de RTO (recovery time objective, of de tijd die nodig is om een back-up weer in productie te zetten) en RPO (recovery point objective, of de frequentie van back-ups) worden veel beter”, argumenteert Michèle Lestiboudois.
“Bedrijven kijken naar deduplicatie omdat ze tape echt beu zijn“, doet Geert Van Peteghem, countrymanager van EMC Belux, er nog een schepje bovenop. “Enkel indien het nodig is voor vaulting [archiveren van tapes, meestal om legale redenen] heeft tape nog waarde.”
Ontdubbeling van gegevens zorgt er ook voor dat minder gegevens over het netwerk moeten worden gestuurd in het geval van remote back-ups. Voor incrementele back-ups (die enkel opslaan wat sinds de vorige back-up werd gewijzigd) kan dit zeker een besparing van ruim negentig procent opleveren, een hele besparing op het netwerkverkeer dus.
4. Wat is het nadeel?
Eigenlijk kunnen we maar één nadeel bedenken, maar het is wel ernstig genoeg om apart vermeld te worden. Als gegevens en bestanden ontdubbeld zijn, is er slechts één bestand of gegevensblok waarop u kunt terugvallen. Als daar iets mee gebeurt, zijn de gevolgen veel dramatischer dan in een traditionele opslagomgeving waar voor elk verloren bestand nog wel ergens een dubbeltje kan worden teruggevonden.
5. Hoeveel kost het, en wat betekent dit voor de ROI?
Om de return on investment van deduplicatie te berekenen, moet u uiteraard ook weten wat het u zal kosten. “Niets, het wordt gratis meegeleverd bij onze softwaresuite”, klinkt het antwoord onder meer bij Jasper Geraerts, businessmanager van Computer Associates Benelux’ afdeling recoverymanagement.
De Arcserve-suite waar hij het dan over heeft, kent een instapprijs van ongeveer duizend euro, voor één server. “Typisch kost die bij een gemiddelde klant ongeveer tienduizend euro,” vult Geraerts aan, “maar dan heeft de klant zijn investering eigenlijk al na één dag terugverdiend, vanaf de tweede back-up zeg maar.”
Kosten kunnen nooit een argument zijn om niet aan deduplicatie te doen, meent ook Geert Van Peteghem: “Net als bij virtualisatie is de businesscase te maken op een bierviltje. Sinds we DataDomain en hun deduplicatietechnologie hebben overgenomen, hebben we de omzet in België al verdrievoudigd, gewoon omdat de businesscase altijd zo duidelijk was.”
6. Waar kunt u terecht?
In de praktijk hebben alle grote storageleveranciers, zoals EMC, HP, Symantec, NetApp en IBM, wel een deduplicatieoplossing. Meestal maakt die deel uit van een omvattende storageoplossing zoals back-up of archivering.