cloudflare logo

Was je favoriete (of eigen) website dinsdag omstreeks 15:30 niet beschikbaar? Dan is dat mogelijk te wijten aan een grootschalige Cloudflare-storing.

Enkele van de TechPulse-redacteurs met persoonlijk websites in eigen beheer, kregen gisteren meldingen dat hun websites onbereikbaar waren. Nu is daar een verklaring voor, want een grootschalige storing bij Cloudflare lag aan de basis van het voorval.

In eerste instantie waren de websites enorm vertraagd, maar uiteindelijk kregen bezoekers een 502 Bad Gateway-melding te zien bij het bezoeken van de websites. Op Twitter bevestigde Cloudflare CEO Matthew Prince op de hoogte te zijn van de problemen. Het bedrijf begon om 15:52 de problemen te onderzoeken en om 16:15 schreef het bedrijf dat er een oplossing was geïmplementeerd. Kort daarna verdwenen de problemen.

Slechte software-implementatie

In een post mortem verklaart Cloudflare de problemen. Het bedrijf schrijft neer dat er een gigantische piek in CPU-gebruik te zien was omwille van een slechte software-implementatie. De implementatie werd teruggerold en zo werden de problemen verholpen.

Concreet wou Cloudflare nieuwe regels toevoegen aan Cloudflare Web Application Firewall (WAF). De bedoeling was om met deze nieuwe regels het risico van kwaadwillende inline JavaScript-code te mitigeren, maar een van deze regels bevatte echter een regular expression die de CPU’s van alle Cloudflare servers wereldwijd tot 100% van hun capaciteit dreef.

Cloudflare verwijt zichzelf voor het voorval, want volgens hen hebben ze de software-implementatie niet voldoende getest alvorens deze wereldwijd uit te rollen. Het bedrijf kijkt nu hoe ze hun testproces kunnen finetunen om dergelijke voorvallen te vermijden in de toekomst.

cloudflare cpuspike
Een slechte software-implementatie dreef het CPU-gebruik naar zijn maximum.