Nieuws

Google lost grote problemen met cloud-VM’s op

De cloud-VM-dienst van Google ging meer dan tien uur offline. Slechte configuratieveranderingen lagen aan de basis van de problemen.

 
Google ervoer grote problemen met zijn cloudinfrastructuur voor virtuele machines. Het systeem ging plat om 00:52 (Amerikaanse tijd) op 30 augustus. Pas om 19:18 waren alle problemen van de baan. Klanten van het bedrijf moesten evenwel handmatige taken uitvoeren om hun virtuele machines weer aan de praat te krijgen.
 

Probleemdetectie

Pas om 6:00 uur – zo’n vijf uur na de start van de problemen – deelde Google voor het eerst een mogelijke oorzaak van de problemen mee. “Ons ingenieursteam heeft de infrastructuurcomponent gevonden die verantwoordelijk is voor het probleem en werkt momenteel aan oplossing,” schrijft het bedrijf.
 
Een uur later steekt Google de schuld op zijn netwerk load balancer. “We ervaren momenteel een probleem met een subset van onze netwerk load balancers in de regio’s us-east1, us-central1, europe-west1, asia-northeast1 en asia-east1. Onze vorige acties losten het probleem niet op. We proberen nu alternatieve oplossingen,” aldus Google.
 
Omstreeks 8:30 had Google de echte oorzaak van alle problemen eindelijk gevonden. Het bedrijf rolde de configuratieveranderingen terug die de verbindingsproblemen veroorzaakten en verklaarde om 10:30 dat de configuratieaanpassingen klaar waren. Nieuwe instanties konden vanaf dat momenten zonder problemen weer met de cloud van Google verbinden.
 

Oplossing

Het echte probleem zat hem echter in de bestaande instanties. De virtuele machines die draaiden wanneer de cloudproblemen startten, werkten nog steeds niet. Google schrijft op zijn website welke manuele acties zijn klanten moeten uitvoeren. “Creëer een nieuwe TargetPool. Voeg de getroffen VM’s toe aan een regio in de nieuwe TargetPool. Wacht vervolgens tot de VM’s starten met werken in hun bestaande load balancer configuratie. Verwijder de nieuwe TargetPool en behoudt de bestaande load balancer configuratie, inclusief de oude TargetPool,” klonk het van Googles kant.
 
Dat klanten manuele acties moesten uitvoeren om de problemen volledig van de baan te helpen, viel niet bij iedereen in de smaak. Bedrijven betalen immers geld aan Google om alle configuratie- en onderhoudswerk van de achterliggende infrastructuur van hun virtuele machines op zich te nemen. Veel firma’s begrepen het initiële stappenplan van Google dan ook niet, waardoor het bedrijf genoodzaakt was om nieuwe instructies online te plaatsen.
 
Omstreeks 20:18 schreef Google dat alle problemen volledig waren opgelost. Zo’n 18,5 uur nadat de eerste klachten opdoken, slaagde Google erin al zijn klanten weer een feilloze service te bieden.
 

Dilemma

Deze cloudproblemen waren niet de eerste keer dat Googles infrastructuur offline ging. In 2016 ging de clouddienst maar liefst 4 keer plat. De problemen tonen aan met welke dilemma’s cloudproviders te maken krijgen. Ze moeten regelmatig onderhoud uitvoeren en configuraties aanpassen om hun clouddienst modern te houden. Telkens wanneer ze een aanpassing doorvoeren, lopen ze echter het risico dat een deel van de dienst offline gaat.

businesscloudnieuwsvirtuele machine

Gerelateerde artikelen

Volg ons

Het is Black Friday bij bol.com!

Het is Black Friday bij bol.com!

Deals scoren