3 maart 2017 09:30

Grootschalige internetstoring te wijten aan een typfout, zegt Amazon

Toen de Amazon S3-dienst offline ging, volgde een groot deel van het internet. Uit onderzoek blijkt een typfout aan de basis van alle problemen te liggen.

Eerder deze week lag een groot deel van het internet plat. Diensten zoals If This Then That, Medium, Slack en Quora waren niet langer bereikbaar, waardoor veel gebruikers met de handen in het haar zaten. De oorzaak van het probleem lag bij Amazon, die de populaire clouddienst S3 aanbiedt.

De dienst van Amazon ging offline in de Northern Virginia-regio, met grote problemen tot gevolg. Volgens Gartner bevat de S3-opslagdienst immers 1,6 keer zoveel data als alle belangrijke concurrenten tezamen. De grootte van S3 zorgde ervoor dat de problemen tot ver buiten de Northern Virginia-regio te voelen waren. Pas vier uur na het offline gaan van de dienst loste Amazon alle problemen op.

Typfout

Nu alle diensten die steunen op Amazon S3 weer volop draaien, legt het bedrijf in een blogpost uit wat alle problemen veroorzaakte. Een banale typfout blijkt aan de basis van de problemen te liggen.
“Een geautoriseerd S3-teamlid voerde een commando uit dat bedoeld was om een klein aantal servers te verwijderen van het S3-subsysteem dat wordt gebruikt voor het betalingsproces. Jammer genoeg werd één van de inputs voor het commando incorrect ingegeven, waardoor een groter aantal servers werd verwijderd,” legt Amazon het probleem uit.

De subsystemen van Amazon S3 zijn zodanig gemaakt dat ze zonder problemen een deel van hun capaciteit kunnen verliezen. Het slecht ingegeven commando verwijderde echter zoveel servers dat twee subsystemen er alsnog de brui aangaven. Het eerste subsysteem dat offline ging, het indexsysteem, beheert de metadata en locatie-informatie van alle S3-objecten in de regio. Zonder het systeem kunnen diensten die op S3 steunen geen basistaken uitvoeren, zoals gegevens ophalen en opslagtaken.

Traag

Het subsysteem dat de allocatie van nieuwe opslag beheert, maakt gebruik van het indexsubsysteem en werkte bijgevolg ook niet langer. Beide subsystemen verloren zoveel capaciteit dat ze volledige herstart moesten worden. Doordat Amazon S3 de voorbije jaren erg hard is gegroeid, nam dit proces meer tijd in beslag dan Amazon verwachtte.

“We voeren veranderingen uit die de herstelperiode van belangrijke S3-subsystemen verkorten. Eén van de belangrijkste veranderingen omvat dat de services in kleine partities worden opgedeeld. Met het groeien van S3 heeft het team gewerkt aan het herverdelen van delen van de dienst in kleinere partities om de impact van problemen te verkleinen en het herstelproces te verbeteren. Tijdens de recente problemen duurde het herstelproces nog steeds langer dan verwacht. Het S3-team heeft daarom verdere partitionering ingepland,” aldus Amazon.

Les

Behalve het verkorten van herstelprocessen wil Amazon eveneens vermijden dat een typfout zijn dienst nog een keer offline haalt. In zijn blogpost doet het bedrijf daarom uit de doeken dat het de tool die wordt gebruikt voor het verwijderen van capaciteit heeft aangepast.

“We hebben deze tool aangepast zodat capaciteit trager wordt verwijderd. Ook zijn er beveiligingen toegevoegd om te voorkomen dat zoveel capaciteit wordt verwijderd dat een subsysteem niet langer de minimum capaciteit ter beschikking heeft. Dit zal voorkomen dat incorrecte input in de toekomst voor een soortgelijk event zorgt,” schrijft Amazon.

Ten slotte verontschuldigt het bedrijf zich voor de problemen die klanten hebben ervaren. “We zullen er alles aan doen om van dit event te leren en onze beschikbaarheid in de toekomst verbeteren,” belooft de clouddienstprovider.