Hoe Facebook zijn datawarehouse sneller maakte
Facebook heeft een nieuw compressie-algoritme geschreven om zijn bestanden in te pakken. Het leidde voor het bedrijf tot meer opslagruimte in zijn datawarehouse, en een vermindering van de noodzakelijke computerkracht.
Silicon Valley
Trouwe kijkers van de HBO-reeks Silicon Valley zullen nu ongetwijfeld een déjà vu beleven, want de fictionele start-up uit de tv-reeks pakt een gelijkaardig probleem aan. Facebook vond het ook hoog tijd om de computercode voor compressie aan te pakken. De meeste methodes die men vandaag gebruikt om bestanden te comprimeren, zijn immers tijdens de jaren ’90 tot stand gekomen. Het sociale netwerk stelt zijn nieuwe algoritme, Zstandard, gratis beschikbaar op Github in de hoop dat het Deflate zal vervangen. Dat algoritme vormt de ruggegraat van zip, gzip en zlib, de meest gebruikte compressiestandaarden.
Schaalbaar
Zstandard zorgt zowel voor een sneller comprimeringsproces als kleinere bestanden. Het geeft gebruikers meer opties om het evenwicht te zoeken tussen de belangrijkste eigenschappen: snelheid versus compressiesverhouding. Schaalbaarheid is een ander groot voordeel waarmee Zstandard kan uitpakken. Het verouderde Deflate houdt geen rekening met de huidige mogelijkheden van de cloud.
Facebook zelf gebruikt de nieuwe standaard al zes maanden in zijn eigen Exabyte-datawarehouses. De vervanging van zlib door Zstandard leverde een reductie van 6 procent in opslagruimte op, een vermindering van 19 procent in de computerkracht nodig voor compressie, en een vermindering van 40 procent in de computerkracht nodig om de bestanden weer uit te pakken. [related_article id=”168037″]
Werkgeheugen
Waar Zstandard wel meer middelen vereist, is in het werkgeheugen. Waar Deflate kan draaien op 32 KB, raadt Facebook aan om het geheugengebruik van Zstandard te beperken tot 8 MB. “Dit is een tuning-advies, geen beperking van het comprimeringsformat,” aldus Yan Collet, de Facebookwerknemer die het algoritme ontwikkelt heeft.