Cloudflare-storing legde tal van websites lam
Enkele van de TechPulse-redacteurs met persoonlijk websites in eigen beheer, kregen gisteren meldingen dat hun websites onbereikbaar waren. Nu is daar een verklaring voor, want een grootschalige storing bij Cloudflare lag aan de basis van het voorval.
In eerste instantie waren de websites enorm vertraagd, maar uiteindelijk kregen bezoekers een 502 Bad Gateway-melding te zien bij het bezoeken van de websites. Op Twitter bevestigde Cloudflare CEO Matthew Prince op de hoogte te zijn van de problemen. Het bedrijf begon om 15:52 de problemen te onderzoeken en om 16:15 schreef het bedrijf dat er een oplossing was geïmplementeerd. Kort daarna verdwenen de problemen.
Aware of major @Cloudflare issues impacting us network wide. Team is working on getting to the bottom of what’s going on. Will continue to update.
— Matthew Prince 🌥 (@eastdakota) July 2, 2019
Slechte software-implementatie
In een post mortem verklaart Cloudflare de problemen. Het bedrijf schrijft neer dat er een gigantische piek in CPU-gebruik te zien was omwille van een slechte software-implementatie. De implementatie werd teruggerold en zo werden de problemen verholpen.
Concreet wou Cloudflare nieuwe regels toevoegen aan Cloudflare Web Application Firewall (WAF). De bedoeling was om met deze nieuwe regels het risico van kwaadwillende inline JavaScript-code te mitigeren, maar een van deze regels bevatte echter een regular expression die de CPU’s van alle Cloudflare servers wereldwijd tot 100% van hun capaciteit dreef.
Cloudflare verwijt zichzelf voor het voorval, want volgens hen hebben ze de software-implementatie niet voldoende getest alvorens deze wereldwijd uit te rollen. Het bedrijf kijkt nu hoe ze hun testproces kunnen finetunen om dergelijke voorvallen te vermijden in de toekomst.