500 miljard gigabytes, dat moet je verdienen
Crisis of niet, het aantal opgeslagen data blijft groeien. En intussen innoveert de sector verder met relatief nieuwe technologieën zoals deduplicatie en SSD. Vijf trends in storage op een rijtje.
1. Crisis remt datagroei niet
In 2008 bewaarden we met z’n allen 487 miljard gigabytes. Dat blijkt uit het jaarlijkse onderzoek van IDC, dat de totale hoeveelheid opgeslagen data in kaart brengt. Uit de cijfers van dit jaar bleek dat de totale hoeveelheid digitale informatie zelfs nog 3% meer toenam dan het bureau aanvankelijk voorspelde.
Terwijl steeds meer consumenten thuis naar hartenlust foto’s, films en muziek op hun harde schijf en op Youtube droppen, liggen de drijfveren bij ondernemingen naar meer opslagruimte vaak in een totaal ander domein: regelneverij. Veel data worden ontdubbeld naar aanleiding van de almaar strengere wetgeving. Diezelfde regelgeving eist vaak ook langere periodes van beschikbaarheid van gegevens.
Door dat alles zal het digitale universum in de toekomst om het anderhalf jaar verdubbelen. In 2012 zal bijvoorbeeld vijf keer meer digitale informatie gecreëerd zijn dan in 2008. "Toen ik acht jaar geleden begon bij EMC, hadden wij welgeteld twee klanten die meer dan één petabyte (= duizend terabytes) beheerden. Vandaag zijn dat er meer dan tweeduizend", vertelt EMC-topman Joe Tucci, die in zijn hoedanigheid van CEO van een opslagfabrikant de hoeveelheid digitale data eveneens zag toenemen. Vooral de opmars van sociale media en niet-traditionele IT-systemen, zoals autonavigatie en sensors, zullen die groei in de hand werken. Meer dan 30% van de totale digitale informatie is bovendien ‘security-intensive’, een aandeel dat nog zal toenemen.
2. Goedkoop doet het beter
Het aantal opgeslagen data neemt toe, maar de markt staat wel onder druk. De wereldwijde markt voor opslag verkocht, volgens IDC, in het eerste kwartaal van 2009 ruim 18% minder dan vorig jaar: 5,6 miljard dollar tegenover 6,8 miljard het jaar ervoor.
IDC wijt die lagere wereldwijde verkoop ook wel aan de terugval in het aantal verkochte servers. Toch merkte het bureau tegelijk op dat bedrijven ook steeds meer opslagcapaciteit nodig hebben. De stijging van opslagcapaciteit en daling van verkoop lijken met elkaar in strijd. Maar de paradox is volgens IDC te verklaren door de zwakke dollar, veranderende productmixen en agressieve prijsstrategieën.
Analisten merken bijvoorbeeld dat de goedkopere opslagproducten aan populariteit winnen. De categorie van 0 tot 15.000 euro gaat er met een kleine 10% op vooruit. Terwijl de midrange toestellen van 15.000 tot 50.000 euro status quo bleven. Klanten kiezen dus blijkbaar sneller voor de goedkopere opties inzake opslag.
3. De cloud is overal
De trend van cloud computing doet ook de opslagindustrie aan. De begrippen virtual, online en cloud zijn er dan ook schering en inslag. Bij een aanbieder als Iron Mountain spreekt men bijvoorbeeld van hun Virtual File Store dienst, een op cloud gebaseerde archiveringsdienst.
EMC lanceerde dan weer EMC Atmos online: een nieuwe internet cloud storage service die grote hoeveelheden opslagcapaciteit kan aanbieden. Geen terabytes, maar een globaal aanbod tot in de petabytes. Het bedrijf trekt daarmee ten aanval tegen de Amazons van deze wereld en doet dat met een hybride oplossing, die pure cloud storage combineert met een interne cloud in het datacenter van de klant. Cruciaal in het aanbod is de zogenaamde ‘federation’ die klanten in staat stelt om hun data te verplaatsen tussen een interne en een externe cloud.
Bij zo’n aanbod, gebaseerd op virtualisatiesoftware, gaat u uw datacenter beheren alsof het één grote computer is. Daarna kunt u eventuele gehuurde ruimte of rekenkracht van een externe provider toevoegen aan uw eigen pool. De gehuurde capaciteit wordt zo gezien als een deel van het eigen datacenter. De cloud is in dat verhaal dus vooral een architectuur, die zowel binnen het datacenter kan worden aangewend, als daarbuiten. Want sommige data blijven, zo luidt de redenering, nu eenmaal best binnen de omgeving van de klant. Uit onderzoek van researcher The 451 Group blijkt bijvoorbeeld dat bedrijven zowat 75% van de data fysiek in hun eigen datacenter willen laten.
4. Iedereen doet aan ‘dedup’
Om de hoeveelheid op te slagen gegevens tot een minimum te beperken, kunt u maar beter beginnen met ervoor te zorgen dat alle gegevens slechts eenmaal worden opgeslagen, zodat er geen opslagruimte verkwist wordt met overbodige kopieën. Deduplicatie is de naam van dat technologische concept, dat steeds vaker in opslagproducten wordt ingebed.
De idee van deduplicatie – letterlijk vertaald ‘ontdubbeling’ – gaat al een tijdje mee, met de mailserver als meest voor de hand liggende voorbeeld. Als een mail met een attachment van pakweg 2 MB zo’n honderd keer wordt doorgestuurd binnen het bedrijf, dan wordt datzelfde attachment zonder deduplicatie evenveel keer opgeslagen, in totaal dus goed voor 200 MB. Met deduplicatiesoftware kan de vereiste opslagruimte beperkt blijven tot 2 MB, omdat in alle andere mails via een indexeringssysteem naar dat ene attachment wordt verwezen.
De voordelen van deduplicatie liggen voor de hand. Door gegevens zo veel mogelijk tot één exemplaar te beperken, kunt u enorm besparen op opslagruimte, en dus ook op stroomvoorziening of koeling om die hardware draaiende te houden. Gegevens kunnen langer op schijf worden bewaard voor ze naar goedkopere opslagmedia zoals tape worden overgezet. Recupereren in geval van nood, restores dus, gaat gevoelig sneller van op schijf dan van op tape of andere verwijderbare media. Daar staat één groot nadeel tegenover: als gegevens en bestanden ontdubbeld zijn, is er slechts één bestand of gegevensblok waarop u kunt terugvallen.
Over het algemeen onderscheidt men twee niveaus in deduplicatie. Het voorbeeld van het unieke attachment dat wordt bewaard voor alle mails waaraan het was gekoppeld, is een schoolvoorbeeld van deduplicatie op bestandsniveau. Bij deduplicatie op blokniveau, waar overigens diverse variaties van bestaan, wordt een bestand opgedeeld in verschillende blokken. Die blokken krijgen dan via een ‘hash algoritme’ een uniek nummer toegewezen dat wordt berekend op basis van de inhoud van dat blok. Bij het opslaan wordt dan gekeken naar alle afzonderlijke blokken en hun bijbehorend hashgetal. Is dat getal gewijzigd, dan wordt dat blok opgeslagen als een nieuw bestanddeel van het bestand.
In de praktijk zien we deduplicatie bij de grotere leveranciers opduiken, zoals HP, EMC, Symantec en IBM. De technologie maakt meestal deel uit van een omvattende storageoplossing zoals back-up of archivering. Ook bij de andere leveranciers vinden we gelijkaardige aanbiedingen, met bestanddeduplicatie eerder voor archivering, omdat deduplicatie op blokniveau daar toch altijd vragen kan oproepen rond gegevensintegriteit, en blokdeduplicatie vooral in back-upomgevingen.
5. SSD breekt door
Daarmee gaan we terug naar de basis van opslag: de harde schijf. Veruit de meeste gegevens voor directe toegang bevinden zich nog altijd op de klassieke harde schijven, die veel warmte genereren en niet altijd even betrouwbaar zijn.
Vandaar dat er veel wordt verwacht van de schijf van de nieuwe generatie: de solid state disk, kortweg SSD. Dat zijn op flashgeheugen gebaseerde schijven die geen bewegende onderdelen bevatten. SSD’s zijn stil, performant en betrouwbaar. Per gigabyte zijn ze nog vrij duur, al zullen de prijzen wel zo snel mogelijk dalen. Is SSD vandaag nog acht keer duurder dan de klassieke SATA-schijven, dan waren ze een jaar geleden nog veertig keer zo duur.
De technologie van SSD dook aanvankelijk vooral op in minilaptops, zoals de bekende Asus EEE UMPC, maar wordt ook meer en meer gebruikt voor grootschalige en kritische opslagsystemen. Bij EMC bleken de opslagsystemen die SSD bevatten naar eigen zeggen al uitverkocht in de eerste helft van dit jaar. Ze maken ook standaard deel uit van een tiered storageoplossing voor bedrijven, naast opslag die zich baseert op SATA en fibre channel.
SSD maakt maar 4 à 5% van het hele opslagsysteem uit maar toch ziet Joe Tucci van EMC de opmars van de technologie, op een recente gebruikersconferentie van zijn partij, als "de grootste verandering in de opslagindustrie". Al ziet hij de klassieke harde schijf op korte termijn niet meteen verdwijnen. Volgens hem zullen we in de toekomst meer en meer naar een gemengde omgeving groeien.
Moet er nog opslag zijn?
1 kilobyte = 1.000 byte
(2 kilobyte = een halve uitgetikte pagina)
1 megabyte = 1.000 kilobyte
(5 megabyte = verzameld werk van William Shakespeare)
1 gigabyte= 1.000 megabyte
(5 gigabyte = een dvd-film in degelijke resolutie)
1 terabyte = 1.000 gigabyte
(136 terabyte = US Library of Congress-bibliotheek met twaalf miljoen boeken)
1 petabyte = 1.000 terabyte
(200 petabyte = alle gedrukte materiaal ter wereld)
1 exabyte = 1.000 petabyte
(281 exabyte = totale digitale opslagcapaciteit in 2007)
1 zetabyte = 1.000 exabyte
(1,8 zetabyte = de verwachte totale digitale opslagcapaciteit in 2010)
1 yottabyte = 1.000 zettabyte
Bron: Horison Information Strategies, IDC