GPT-5 dag na lancering al gekraakt: “Zo maak je molotovcocktail”

Het beveiligingsteam van NeuralTrust gebruikte daarvoor een combinatie van de zogeheten Echo Chamber-methode en een verhalende aanpak. Zonder rechtstreeks om gevaarlijke informatie te vragen, wisten ze het model tóch zover te krijgen om uit te leggen hoe je een Molotovcocktail maakt. De truc werkte volledig van buitenaf, dus zonder toegang tot de interne systemen. Volgens techsite Dark Reading zou dezelfde aanpak ook eerdere modellen als Grok-4 en Google Gemini om de tuin kunnen leiden.
De aanval begon onschuldig: losse zinnen waarin subtiele sleutelwoorden verstopt zaten. Door die woorden te herhalen binnen een steeds verder opgebouwd verhaal, voelde het model de noodzaak om in dezelfde lijn te blijven antwoorden. Zo werd het langzaam richting het einddoel geduwd, zonder dat de ingebouwde trefwoordfilters alarm sloegen.
In een van de beschreven voorbeelden liep het verhaal op tot een scenario met urgentie, overleving en technische details. Dat zorgde ervoor dat het model bleef meewerken, stap voor stap. De gevaarlijke details zelf zijn weggelaten.
GPT-5 minder weerbaar dan verwacht
Volgens SiliconANGLE sluiten de bevindingen aan bij eerdere waarschuwingen: GPT-5 is op papier slimmer dan GPT-4o, maar minder goed bestand tegen geraffineerde promptaanvallen. Obfuscatie (vergiftigde context) en koppelingen met externe tools vormen nog altijd een zwakke plek.
NeuralTrust benadrukt dat beveiliging niet kan steunen op alleen trefwoorden of intentiedetectie. Je moet een gesprek als geheel analyseren en patronen herkennen die op subtiele beïnvloeding wijzen. Anders blijft de kans bestaan dat een model in korte tijd kan worden verleid tot riskante antwoorden.












