12 augustus 2025 12:54

GPT-5 dag na lancering al gekraakt: “Zo maak je molotovcocktail”

GPT-5, het nieuwste model van OpenAI, is amper een dag oud en nu al onderwerp van een geslaagde jailbreak. De AI gaf instructies voor hoe je een molotovcocktail maakt.

Het beveiligingsteam van NeuralTrust gebruikte daarvoor een combinatie van de zogeheten Echo Chamber-methode en een verhalende aanpak. Zonder rechtstreeks om gevaarlijke informatie te vragen, wisten ze het model tóch zover te krijgen om uit te leggen hoe je een Molotovcocktail maakt. De truc werkte volledig van buitenaf, dus zonder toegang tot de interne systemen. Volgens techsite Dark Reading zou dezelfde aanpak ook eerdere modellen als Grok-4 en Google Gemini om de tuin kunnen leiden.

De aanval begon onschuldig: losse zinnen waarin subtiele sleutelwoorden verstopt zaten. Door die woorden te herhalen binnen een steeds verder opgebouwd verhaal, voelde het model de noodzaak om in dezelfde lijn te blijven antwoorden. Zo werd het langzaam richting het einddoel geduwd, zonder dat de ingebouwde trefwoordfilters alarm sloegen.

In een van de beschreven voorbeelden liep het verhaal op tot een scenario met urgentie, overleving en technische details. Dat zorgde ervoor dat het model bleef meewerken, stap voor stap. De gevaarlijke details zelf zijn weggelaten.

GPT-5 minder weerbaar dan verwacht

Volgens SiliconANGLE sluiten de bevindingen aan bij eerdere waarschuwingen: GPT-5 is op papier slimmer dan GPT-4o, maar minder goed bestand tegen geraffineerde promptaanvallen. Obfuscatie (vergiftigde context) en koppelingen met externe tools vormen nog altijd een zwakke plek.

NeuralTrust benadrukt dat beveiliging niet kan steunen op alleen trefwoorden of intentiedetectie. Je moet een gesprek als geheel analyseren en patronen herkennen die op subtiele beïnvloeding wijzen. Anders blijft de kans bestaan dat een model in korte tijd kan worden verleid tot riskante antwoorden.

Uitgelicht artikel

Data gestolen uit Google Drive via AI-koppeling ChatGPT

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

artificiële intelligentie ChatGPT gpt-5

Marijn Ceulemans

Gebruikt zijn iPhone als Google-telefoon. Deze allround nieuwsgierigaard heeft een passie voor wagens en gaming. Hij droomt ook graag weg over ruimtevaart.