20 maart 2017 12:55

Geschiedenis van de supercomputer: de race naar exaflops

De supercomputer van gisteren is de slimme toaster van morgen in een wereld die razendsnel evolueert. Een blik op de geschiedenis van deze krachtige rekenmonsters.

Een supercomputer is in principe een computersysteem dat véél sneller is dan de meeste andere computers in de wereld. Dat gegeven is per definitie contextgebonden: wat dertig jaar geleden onbegrijpelijk snel was, is vandaag hilarisch traag.

1962: Atlas Computer

De eerste supercomputer die naam waardig was de Atlas Computer. Dat computersysteem werd ontwikkeld in het Verenigd Koninkrijk aan de universiteit van Manchester in samenwerking met Ferranti. In 1962 werd Atlas als klaar bestempeld. Het kamervullende toestel bevatte meer computerpk’s dan alle systemen in het VK samen konden voorleggen. Het nodige perspectief komt wel van pas: je televisie of zelfs je wasmachine zijn vandaag slimmer dan Atlas.

De computer was zo krachtig dat conventionele manieren om er mee om te gaan niet meer volstonden. Voor Atlas bestond er iets als de waslijn: een koord in de computerkamer waar wetenschappers hun programma’s fysiek aanhingen. Sequentieel werden die rollen ingeladen en afgewerkt. Niet zo bij Atlas: die krachtpatser had zowaar een besturingssysteem nodig: de Supervisor.

Vandaag is de verdienste van supercomputers het rekenwerk dat ze verzetten, Atlas verdient zijn plaatsje in de geschiedenis echter door gewoon te bestaan. De Supervisor die het systeem moest beheren, ligt aan de basis van Windows, macOS en Linux dankzij enkele basisprincipes die in een halve eeuw niet veranderd zijn.

De Atlas-ingenieurs vonden eigenhandig virtualisatie uit. Nu worden ganse pc’s gevirtualiseerd, toen volstond het om het fysieke en het virtuele geheugen los te koppelen. Een Atlas-programma moest het virtuele geheugen aanspreken in de plaats van het fysieke geheugen en dat concept wordt nog steeds gebruikt.

Heb je ter illustratie een computer met 4 GB aan RAM, die volzet zijn door bijvoorbeeld je browser, Office en een fotobewerkingsprogramma, dan zal je pc niet crashen wanneer je een nieuw programma opent dat het geheugengebruik over de 4 GB trekt. Een deel van het geheugen, in casu het deel dat even niet actief gebruikt wordt, verdwijnt tijdelijk naar een wisselbestand op de harde schijf: de pagefile. Het programma waarvan de gegevens van de RAM naar de harde schijf verbannen zijn, zal even trager reageren wanneer je het vervolgens gebruikt, maar de programmacode weet niet wat er gebeurd is: die code spreekt immers met het virtuele geheugen en niet met het echte RAM-geheugen.

Zonder de geheugenvirtualisatie gepionierd in Atlas, zou je smartphone niet werken zoals hij werkt.

Speciale programmacode beheert dat virtuele geheugen en bepaalt wat er in de RAM moet blijven, en wat naar de harde schijf moet. Zonder de geheugenvirtualisatie gepionierd in Atlas, zou je smartphone niet werken zoals hij werkt. Atlas was verder zo waanzinnig krachtig dat de computer meer dan één programma tegelijkertijd kon uitvoeren. ’s Werelds eerste supercomputer gaf meteen gestalte aan het concept multitasking. Het op maat gemaakte OS werd bovendien een maatstaf voor toekomstige supercomputers, die tot vandaag op erg gespecialiseerde besturingssystemen draaien. Dat is nodig om optimaal van de geweldige computerkracht gebruik te maken.

Hoewel de Atlas mensen destijds met verstomming sloeg zullen de specificaties dezer dagen niet echt tot de verbeelding spreken. Het is moeilijk om de prestaties van het systeem te vergelijken met hedendaagse supercomputers, omdat die gemeten worden in floating-point operations per second (flops). Vandaag werken we in de grote orde van tera- en petaflops, met de ambitie om naar exaflops te gaan. De Atlas had evenwel een asynchrone processor waardoor je niet zomaar van floating-point operations kan spreken. Bleef het bij optellen, dan kon Atlas één bewerking per 1,61 microseconden uitvoeren. Dat vertaalt zich naar een slordige 620 Flops. Er is echter een reden dat schoolkinderen pas leren vermenigvuldigen nadat ze kunnen optellen: het is moeilijker, ook voor Atlas. Een vermenigvuldiging duurde al snel 4,97 microseconden wat neerkomt op ongeveer 200 flops.

1976: Cray-1

In 1976 begonnen de dingen er ietwat herkenbaarder uit te zien met de Cray-1. De machine draagt de naam van haar uitvinder Seymour Cray, één van de vaders van supercomputing. De Cray-1 ademde jaren 70 met zijn intrigerende ronde design. De Cray-1 heeft de naam ’s werelds meest succesvolle supercomputer te zijn. Ferranti bouwde destijds twee Atlas-machines, wat genoeg leek om het einde der tijden te halen met computerpk’s op overschot.

Control Data Corporation bouwde en verkocht meer dan 80 Cray-1-supercomputers, aanvankelijk met een prijskaartje van bijna negen miljoen dollar. Pas tien jaar na de lancering, in 1982, viel het doek over de Cray-1. De vectorprocessor van de supercomputer was geklokt op een enorme 80 MHz (meer dan tien keer minder dan één enkele kern van een hedendaagse smartphone) en kon 160 megaflops verzetten. Atlas was een pionier maar Cray-1 leunde aanzienlijk dichter aan bij computers zoals we daar vandaag over denken.

De jaren 70 en 80 waren hoogdagen voor Cray en de zijnen: de Cray-1 kreeg verschillende broertjes, zoals de 105 MHz Cray X-MP en in 1985 de Cray-2: een quadcorecomputer ondergedompeld in Fluorinert. Fluorinert is een op koolstof gebaseerde koelvloeistof speciaal ontwikkeld voor elektronica, met name dankzij de isolerende eigenschappen ervan. De Cray-2 kon 1,9 gigaflops voor de dag leggen.

Voor het einde van het millennium zag de wereld de eerste supercomputers die vandaag niet noodzakelijk moeten onderdoen voor je smartphone.

1994: Numerical Wind Tunnel

De jaren 90 lijken zo dichtbij dat het moeilijk is om ze tot de geschiedenis te rekenen, maar in computerland is 26 jaar een eeuwigheid. Voor het einde van het millennium zag de wereld de eerste supercomputers die vandaag niet noodzakelijk moeten onderdoen voor je smartphone. De eerste designs waren gebaseerd op de Cray-computers. Die toestellen combineerden vier, en in een later stadium acht vectorprocessors.

In 1994 kon de Numerical Wind Tunnel-supercomputer gebouwd door Fujitsu al 166 vectorprocessors voorleggen. De supercomputer, met een Japanse naam die vertaald naar het Engels eerder vreemd oogt, haalde consistent 100 gigaflops, meer dan 50 keer de computerkracht van de Cray-2. Tegen het einde van de eeuw begon het hard te gaan. Hitachi pakte twee jaar na Fujitsu uit met de SR2201, een machine met 2.048 cpu’s goed voor 614 gigaflops.

1997: ASCI Red

Intel werkte begin jaren 90 aan Paragon, een architectuur voor parallel computing waarmee aanvankelijk 2.048 en uiteindelijk 4.000 i860-chips aan elkaar geschakeld konden worden. De i860 XR kon geklokt worden op 40 MHz, terwijl opvolger i860 XP 50 MHz haalde.

Intels Paragon-architectuur was snel na de lancering inferieur aan onder andere Numerical Wind Tunnel en SR2201, maar het onderzoek leidde in 1997 tot de ingebruikname van de wereldberoemde ASCI Red. Red, Gebouwd door de Verenigde Staten als onderdeel van het Accelerated Strategic Computing Initiative, liet virtuele atoombommen ontploffen. De VS gebruikten de supercomputer als alternatief voor echte atoombomtests nadat die in 1992 eindelijk verboden werden.

ASCI Red was de eerste supercomputer die de teraflops-barrière brak. De VS gebruikten het systeem tot 2006, maar Red was van juni 1997 tot juni 2000 de snelste computer ter wereld. Het systeem was met andere woorden bijna drie jaar lang recordhouder: een knappe prestatie in een periode waarin de Wet van Moore nog levend en wel was. In totaal vertoefde de computer acht jaar in de top 500 van snelste computers ter wereld.

ASCI Red veegde niet alleen de vloer met zijn voorgangers, de computer luidde tevens een nieuw supercomputertijdperk in.

ASCI Red veegde niet alleen de vloer met zijn voorgangers, de computer luidde tevens een nieuw supercomputertijdperk in. Tot Red waren alle belangrijke machines computers met speciale vectorprocessors, na Red had die (dure) technologie virtueel afgedaan.

De specificaties van de computer waren, gezien in de tijdsgeest, hallucinant. Aanvankelijk bestond Red uit 7.264 Pentium Pro-processors met een kloksnelheid van 200 MHz. De opslagcapaciteit bedroeg 12,5 terabytes, het totale geheugen telde 1.212 gigabytes. Na enkele jaren kreeg ASCI Red een upgrade zodat het systeem bij zijn pensioen 9.632 333 MHz Intel Pentium II Over-Drive cpu’s telde. Red werd helemaal ontworpen en gebouwd door Intel. Een unicum, aangezien de supercomputerdivisie van die fabrikant al niet meer bestond toen Red eindelijk het levenslicht zag.

De Red was niet alleen uitzonderlijk omwille van de toen ongeëvenaarde prestaties: de processors in het systeem, dat meerdere kasten in een grote kamer vulde, waren niet speciaal ontwikkeld voor de supercomputer, maar konden ook door een consument in de winkel gekocht worden voor een pc of workstation.

2008: IBM Roadrunner

In 2000 werd ASCI Red van de troon gestoten door IBM’s ASCI White. Twee jaar later namen de Japanners opnieuw de leiding met de NEC Earth Simulator, waarna het terug aan de VS was. Van 2004 tot 2007 voerden meerdere iteraties van IBM Blue Gene de lijst van snelste computers ter wereld aan. Op 25 mei 2008 brak datzelfde IBM de petaflops-barrière met IBM Roadrunner.

Ook Roadrunner kende verschillende versies, maar de editie die zich in de computergeschiedenis rekende, telde in totaal 19.872 cpu’s. 6.912 daarvan waren AMD Opteron 2210 dualcores, de rest waren IBM PowerXCell-cpu’s. De PowerXCell was in essentie niets meer dan een PlayStation 3-processor op steroïden.

Uiteindelijk piekte de petaflopspionier op 130.464 processor,s bijgestaan door een epische 103,6 terabyte aan RAM-geheugen. Het geheel nam net geen 300 serverkasten in beslag en piekte uiteindelijk op (een niet houdbare) 1.456 petaflops. Roadrunner was aanvankelijk niet alleen de snelste, de massieve supercomputer was ook de eerste die gebruik maakte van een hybride architectuur. De Opterons hielden zich bezig met de I/O-operaties, de PowerXCells namen de rol van accelerator op zich.

Op 31 maart 2013 stond Roadrunner nog steeds op plaats 22 in de rangschikking, maar toch besloot de eigenaar, het Los Alamos National Laboratory (LANL), het systeem op pensioen te sturen. Tot Roadrunner gingen overheden en laboratoria op zoek naar ultrakrachtige systemen, maar rond 2010 werd ook efficiëntie belangrijk. Om z’n pieksnelheid te halen vroeg de computer om 2.345 kilowatt. Aan 444 megaflops per watt was dat stroomverbruik goed voor 1.042 petaflops. Japanse concurrent Oakleaf-FX haalde 1.043 petaflops met minder dan de helft: 1.117 kilowatt. In 2012 koste het ongeveer 300 dollar per uur om Roadrunner draaiende te houden. Concreter: de stroomkost van Roadrunner alleen op jaarbasis was meer dan 2,5 miljoen dollar.

Ondanks de geweldige prestaties was de computer na vijf jaar al verouderd. Op het moment van de sluiting vier jaar geleden stond de technologie op een punt dat een alternatief voor Roadrunner met dezelfde rekenpk’s gebouwd kon worden voor circa zes miljoen dollar en dat op een onnoemelijk veel efficiëntere manier.

2009: Cray Jaguar

In 2009, vier jaar voor de sluiting, verloor IBM’s Roadrunner zijn wereldrecord al aan Jaguar, gebouwd door het bedrijf Cray. De man naar wie dat bedrijf genoemd was, stierf eind jaren 90 in een auto-ongeval. De Cray Jaguar bestond al sinds 2005 en werd meerdere malen geüpgraded. In zijn glorieperiode haalde de supercomputer 1,75 petaflops.

Het systeem bestond uit twee delen: Jaguar XT5 en Jaguar XT4. XT5 telde 18.688 computernodes met daarin telkens een 2,6 GHz hexacore AMD Opteron 2435-processor, XT4 werkte met 7.832 nodes ieders uitgerust met een 2,3 GHz quadcore AMD Opteron 1345. Cray combineerde het geheel tot de Jaguar-supercomputer die zo meer dan 200.000 rekenkernen ter beschikking had: meer dan 200.000 keer meer dan de Cray-1 nauwelijks een kwarteeuw eerder.

2010: Tianhe-1A

In 2010 verschenen de Chinezen op het strijdtoneel met de Tianhe-1A: de voorloper van de huidige recordhouder met 2.566 petaflops aan rekenkracht. Met Tianhe verscheen Nvidia op het strijdtoneel. Tianhe kreeg 14.336 Intel Xeon X5670-processors mee, vergezeld van 7.168 Nvidia Tesla M2050-gpu’s. Nvidia was meer dan trots op zijn inclusie en claimde dat er zonder de Tesla’s meer dan drie keer zoveel Xeons zouden nodig zijn voor dezelfde prestaties.

Tianhe-1A was een voorbode van wat komen zou. Fujitsu bouwde vervolgens nog een recordbreker in 2011, gevolgd door Sequoia van IBM een jaar later. Cray pakte in 2012 uit met een andere naam die bij het grote publiek een belletje doet rinkelen: de Titan. Titan was zelf een upgrade van de Jaguar XT5. Het systeem brak de 10 petaflopsbarrière en haalt intussen 17,5 petaflops door 18.688 AMD Opteron 6274 hexacoreprocessors te combineren met evenveel Kepler Nvidia Tesla K20X gpu’s.

In 2013 onthulde China Tianhe-2, een supercomputer zo krachtig dat hij tussen juni 2013 en juni 2016 bovenaan de lijst met krachtigste supercomputers ter wereld prijkte. Tianhe-2 bestaat momenteel uit 33.000 Intel Xeon E5-2692-processors, bijgestaan door 48.000 Xeon Phi’s. Het geheel bezit 88 gigabyte aan RAM per node, goed voor 1,4 petabyte aan totale geheugencapaciteit, en heeft 12,5 petabyte opslag ter beschikking. De supercomputer kan een rekenkracht van 33,86 petaflops voorleggen. Daarmee is de Chinese krachtpatser net niet dubbel zo slim als de Cray Titan, die nog op nummer twee staat.

2016: Sunway TaihuLight

Tianhe-2 kon zijn titel van krachtigste supercomputer ter wereld lang verdedigen, maar moest uiteindelijk vorig jaar de duimen leggen aan de Sunway TaihuLight, die eveneens door de Chinezen werd gebouwd. De Sunway TaihuLight maakt gebruik van 40.960 260-core SW26010 manycore processors, goed voor een totaal van 10.649.600 cpu-kernen. Die worden bijgestaan door 1,31 petabytes geheugen en 20 petabytes opslag. Met 93 petaflops is de nieuwe krachtigste supercomputer ter wereld bijna drie keer sneller dan zijn voorganger.

Voorlopig eindigt het verhaal van de supercomputer hier, al kunnen de VS het leiderschap van China maar moeilijk verkroppen. Midden 2015 kondigde president Obama een sprint naar de exaflopcomputer aan. Een exaflop is maar liefst 1.000 petaflop, wat de machina zo’n tien keer sneller zou maken dan Sunway TaihuLight.

Toekomst: exaflops

Het onderzoek naar een exaflopcomputer loopt in nauwe samenwerking met Nvidia aangezien het systeem sterk op gpu’s zal vertrouwen. Zonder gpu’s, met alleen cpu’s al drijvende kracht, schat Nvidia zelf dat een exaflopcomputer 2 gigawatt zou nodig hebben om te functioneren, wat gelijk staat aan de output van de Hooverdam of, anders gezegd, net iets te veel stroom om praktisch te zijn.

Onderzoek naar supercomputers is onderzoek naar wat computers kunnen op het scherpst van de snee en dat op zich maakt de investeringen deels waardevol, zeker in de vroegere dagen van de computerontwikkeling.

Hybride systemen met accelerators, zoals de PowerXCell in IBM Roadrunner en Nvidia gpu’s in tal van supercomputers daarna, presteren veel meer met veel minder stroom omdat ze de kracht van een cpu en een gpu combineren. Een krachtige hexacoreprocessor met hyperthreading kan tot twaalf simultane bewerkingen uitvoeren, maar de kracht van de cpu zit in de rekenkracht van de kernen, niet het samenspel. Een processor is gemaakt om rekenintensieve opdrachten uit te voeren. Een gpu kan in contrast niet overweg met zware bewerkingen, maar blinkt wel uit in parallel computeren. Waar een high-end hexacoreprocessor zich met maximaal twaalf bewerkingen kan bezighouden, kan een grafische chip overweg met duizenden bewerkingen verspreid over evenveel rekenkernen.

Bij geaccelereerd rekenwerk verdeelt een computer, super of niet, de last over de verschillende soorten hardware. Rekenintensief werk gaat naar de cpu, terwijl de gpu minder moeilijke instructies simultaan verslindt dankzij de parallelle architectuur. Dat is de reden dat een grafische kaart grafisch werk verzet op je pc, en je processor niet: het berekenen van individuele pixels op je scherm is niet moeilijk, maar op een full HD-display moeten er wel telkens 993.600 pixels berekend worden. Dergelijk parallel werk zie je duidelijk in de grafische wereld, maar komt ook voor bij andere bewerkingen en simulaties.

[related_article id=”213145″]

Onderzoek naar supercomputers is onderzoek naar wat computers kunnen op het scherpst van de snee en dat op zich maakt de investeringen deels waardevol, zeker in de vroegere dagen van de computerontwikkeling. Dat er zeker voor Japan, de VS en China prestige in het spel is, is evenmin onmiskenbaar. Obama’s oproep om een exaflopsysteem te bouwen komt er niet puur uit praktische overwegingen: de VS willen dolgraag de eerste ter wereld bouwen. Tianhe-2 is in dat opzicht een vernedering voor een land dat mee aan de wieg van de supercomputer stond.

Supercomputers hebben hun laatste doorbraak nog niet geforceerd en de krachtigste ooit is nog lang niet gebouwd. De systemen zijn een drijvende kracht achter wetenschappelijke vooruitgang en stonden sinds de uitvinding van de computer zelf aan het voorfront van wat mogelijk was. Het valt op hoe snel de vooruitgang is gegaan, en het is zonder meer fascinerend om te zien wat een processor en een grafische kaart kunnen doen wanneer ze gecombineerd worden met duizenden broertjes en zusjes in één watergekoeld monster.