Een kijkje bij de BrENIAC: wat maakt een supercomputer zo slim?
“Vergelijk een supercomputer niet met Superman”. Ingrid Barcena, Tier-1 project lead bij het Vlaams Supercomputer Centrum, wil meteen duidelijk maken wat een supercomputer wél is, maar ook wat zo’n ding niet is. “Een supercomputer is één van de vele tools in de wereld van de High Performance Computing (HPC)”, klinkt het. Voor HPC heeft ze meteen een definitie klaar: “High Performance Computing is het gebruik van parallel rekenwerk om geavanceerde toepassingen op een snelle en betrouwbare manier te draaien.”
Je desktop x 10.000
Parallel is hier het sleutelwoord. Een supercomputer als BrENIAC is niet opgebouwd uit unieke en mysterieuze krachtige hardware die fabrikanten reserveren voor de bouw van dergelijke systemen, maar uit heel veel zeer herkenbare componenten. Zowat alle huidige supercomputers zijn gebaseerd op dezelfde x86-architectuur die je in je laptop terugvindt. Zo heeft je laptop waarschijnlijk een dualcoreprocessor van Intel aan boord en is hij in elkaar gevezen door een OEM zoals Dell of HP.
BrENIAC heeft geen Core-cpu’s, maar Xeon-processors aan boord. Concreet gaat het om Intel Xeon E5 2680v4-processors met een kloksnelheid van 2,4 GHz. Het systeem heeft 580 rekennodes die telkens twee Xeons bevatten, goed voor 16.240 rekenkernen. BrENIAC is na een aanbesteding gebouwd door NEC. De Xeon-chip is uitermate geschikt voor gebruik in HPC-systemen dankzij de bredere bandbreedte en de enorme hoeveelheid cache: 35 MB L3. De 14 core-processor is door Intel gebakken met de 14 nm-Broadwell-architectuur en heeft de klassieke Intel-paradepaardjes aan boord. Multithreading tekent present, net als een turbo die de kloksnelheid van 2,4 GHz naar 3,3 GHz kan stuwen. Het systeem heeft ongeveer 600 Tflops aan rekenkracht en kostte 5,5 miljoen euro om te bouwen.
Dat klinkt indrukwekkend, maar Herman Moons, hoofd van de Dienst Centrale ICTS-infrastructuur aan de KU Leuven waar BrENIAC staat, is niet onder de indruk. “Zowel de turbo als multithreading zijn gedeactiveerd in de BrENIAC”, vertelt hij. “Als onderzoekers hun algoritmes goed hebben geoptimaliseerd voor de supercomputer, biedt hyperthreading geen meerwaarde. De turboboost maakt de snelheid waarmee een cluster opdrachten uitvoert dan weer variabel wat evenmin wenselijk is.”
Samen sterk
De computer haalt zijn kracht uit de samenwerking van alle verschillende kernen. Barcena vergelijkt BrENIAC daarom liever met een leger soldaten, dan één onwaarschijnlijke krachtpatser als Clark Kents alter ego. Om zoveel mogelijk uit de beschikbare kracht van een HPC-systeem te halen, moeten onderzoekers leren om code en simulaties uit te werken die dat ganse leger zo efficiënt mogelijk aanspreken. Iedere soldaat moet te allen tijde aan het werk zijn. De kernen moeten natuurlijk ook vlot samen kunnen werken. Een supercomputer is meer dan een vrachtwagenlading Xeon-processors recht uit het Intel-magazijn.
“De interconnects zijn extreem belangrijk”, weet Barcena. “Alle rekennodes zijn met elkaar verbonden via een razendsnelle interconnect.” Die doet nog het meest denken aan een soort ethernetverbinding op steroïden. In de praktijk neemt een supercomputer daarom de vorm aan van een rij serverkasten. Vooraan zitten de computernodes met daarin de twee Xeon-processors. Een handvol nodes is telkens verbonden met een interconnect-switch. Die switches zijn op hun beurt verbonden met andere switches tot het hele systeem op een slimme en vooral snelle manier gelinkt is. Barcena: “Het op een snelle manier verbinden van alle rekennodes is de grootste uitdaging bij de bouw van een moderne supercomputer.”
Het resultaat is een lange kast die tot de nok gevuld is met rekenkracht en dag in dag uit op volle toeren draait. Moons: “Het systeem is ontwikkeld om vrijwel nonstop aan hoge capaciteit rekenwerk uit te voeren.” Jan Ooghe, verantwoordelijke van de faciliteiten voor onderzoek aan de KU Leuven, verduidelijkt wat dat wil zeggen. “Honderd procent belasting van het systeem is niet ideaal. Idealiter draait een supercomputer nonstop aan 60 procent tot 70 procent van zijn capaciteit.”
Slimme verwarming
Je kan al vermoeden dat een dergelijke belasting de nodige warmte met zich meebrengt. De BrENIAC wordt daarom niet met lucht, maar met water gekoeld. “Een deel van die warmte wordt in de winter gerecycleerd om de ICTS-campus te verwarmen”, glundert Moons. Verder kan het datacenter waarin de BrENIAC staat zijn warmte meestal kwijt aan de lucht. “Het koelwater meet ongeveer 30 graden. Zolang het fris genoeg is buiten, hoeven we het water niet actief bij te koelen.”
Stroom voor de verzameling Xeons en switches komt van de universiteit haar eigen hoogspanningsnet. De computer gebruik gemiddeld zo’n 150 kW. “Het systeem is erg efficiënt. Per kilowatt die we aan rekenkracht gebruiken, gaat amper 0,4 kilowatt naar alles wat de supercomputer operationeel moet houden, zoals de koeling.” Dat leverde het systeem bij de onthulling plaats 72 op in de Green 500, een top 500 van supercomputers die rekening houdt met de ecologische voetafdruk. “Toch kost het systeem ons nog meer dan 300.000 euro per jaar aan stroom alleen.” Ter vergelijking: een desktopcomputer die 24 uur per dag, 365 dagen per jaar draait, zou je een flinke 100 euro kosten.
Die kost speelt ook een rol in de keuze van hardware. Annemie Depuydt, hoofd van de ICTS-afdeling van de KU Leuven, verklaart. “Supercomputers op basis van gpu’s zijn een stuk duurder dan exemplaren met cpu’s. Bovendien verbruikt een gpu meer stroom dan een cpu.” Barcena bevestigt dat. “Het was voor BrENIAC efficiënter om voor cpu’s te kiezen. De kans bestaat echter dat de volgende Tier-1-supercomputer in Vlaanderen wel met gpu-kernen wordt opgebouwd.”
Weinig redundantie
Als het goed is, draait BrENIAC nonstop. Ooghe: “Sinds de supercomputer op 17 oktober 2016 online kwam, hebben we een uptime van 99,99 procent.” In de regel moet BrENIAC ongeremd draaien, al neemt de KU Leuven de kans op een beetje downtime er graag bij. Depuydt legt uit waarom 100 procent betrouwbaarheid en uptime geen prioriteiten zijn. “Als alles 100 procent van de tijd moet draaien, moeten we veel redundantie inbouwen en dat kost te veel geld. Bovendien zouden onderzoekers redundante rekennodes maar al te graag meteen mee gebruiken, ook als dat een klein extra risico met zich meebrengt.”
Als er iets misloopt met de hardware en een rekennode vervangen moet worden, is dat een fluitje van een cent. De nodes klikken eenvoudig weg in het systeem, waarna de BrENIAC er opnieuw tegenaan kan. Ook voor kritieke updates van het besturingssysteem gaat de BrENIAC even offline. De computer draait immers op een distributie van Linux en die moet up-to-date blijven.
“In principe kan de computer evenmin blijven werken als de hoogspanning wegvalt”, weet Moons. “Het kost te veel diesel om de BrENIAC op noodgeneratoren te laten functioneren.” Het datacenter van ICTS heeft wel twee dieselgeneratoren, maar die dienen vooral om de rest van de infrastructuur online te houden. “De BrENIAC krijgt natuurlijk wel voldoende stroom om zichzelf langzaam en veilig af te sluiten.” In de praktijk is er nog wat plaats in het datacenter waar de grote computer staat. “De stroomvoorziening is gebouwd ter ondersteuning van een volledig uitgebouwd datacenter. Voorlopig hebben we genoeg capaciteit op reserve om BrENIAC wel aan te sluiten op een back-upstroomkring zodat de supercomputer momenteel geen last ondervindt van eventuele stroomonderbrekingen.”
Ecosysteem
De BrENIAC heeft veel weg van een klassieke verzameling servers in een datacenter. De noden voor onderhoud en koeling zijn gelijkaardig, waardoor de KU Leuven de supercomputer in zijn bestaande datacenter kon integreren. “Dat bracht wel een extra uitdaging met zich mee”, herinnert Barcena zich. “NEC moest de computer immers bouwen zonder dat de rest van het datacenter offline mocht gaan.”
De supercomputer staat niet los van de rest van het datacenter. BrENIAC moet zware simulaties draaien aan de hand van enorme hoeveelheden data. De rekenopdrachten die daarmee gepaard gaan, lopen met duizenden tegelijkertijd. De nodige gegevens moeten de juiste rekennode tijdig bereiken om het rekenwerk niet te vertragen. Daarom werkt de supercomputer samen met bliksemsnelle opslag waar de computer zijn gegevens haalt en resultaten terug naartoe stuurt. Moons: “Die opslag is duur en wordt dus niet geback-upt. Hij dient enkel om actief rekenwerk te ondersteunen.”
Het mag duidelijk zijn: een supercomputer is meer dan een computer alleen. Een Tier-1-systeem zoals de BrENIAC is een verzameling van krachtige x86-hardware die langs alle kanten ondersteund wordt door heuse datacenterinfrastructuur. Daarom staat de BrENIAC in Leuven. “We wisten bij de bouw van het nieuwe datacenter in 2012 al dat de computer waarschijnlijk naar hier zou komen. We konden ons er zo op voorzien”, weet Moons.