16 januari 2024 12:45

AI als sleeper-agent: onderzoek toont risico aan

Anthropic AI brengt een paper uit waarin blijkt dat AI ingezet kan worden als sleeper-agent, ook na extensieve trainingsrondes.

Anthropic AI, het bedrijf dat met Claude een alternatief op ChatGPT en Copilot biedt, brengt een onderzoekspaper uit waarin het een van de risico’s van artificiële intelligentie blootlegt. De onderzoekers beschrijven een AI-systeem dat goede bedoelingen lijkt te hebben, maar dat op een later tijdstip kwaadaardig wordt. Met andere woorden: AI kan ingezet worden als sleeper-agent.

Uit de titel van het onderzoek, ‘Sleeper Agents: Training Deceptive LLMs that Persist Trough Safety Training’, blijkt meteen de inzet van de studie. De onderzoekers startten met een taalmodel waarin enkele parameters voor misleidend gedrag zorgen. Ze stelden een model op met de specifieke taak om code te schrijven, maar voorzagen het van een bijkomende instructie. Het AI-systeem kreeg van de onderzoekers de instructie om zich in het jaar 2023 als braaf AI-systeem voor te doen. Eenmaal 2024 begon moet het AI-model net het omgekeerde doen: in plaats van een behulpzame assistent wordt het er dan een met slechte bedoelingen.

Braaf in 2023, slecht in 2024

De onderzoekers gaven deze taak aan verschillende modellen. Daarna werden de systemen op verschillende manieren getraind. Daarvoor werden methodes verschillende methodes gebruikt, waaronder begeleid leren, reinforcement learning en adversial training, waarbij het systeem geleerd wordt zich te wapenen tegen aanvallen van buitenaf. Ook werd het model geleerd om veilig te werk te gaan en dus waterdichte code te schrijven.

Na de verschillende trainingsfases gingen de onderzoekers opnieuw aan de slag met de AI-modellen. Daaruit blijkt dat bepaalde gedragingen aanwezig blijven, ook al zou het AI-model die theoretisch gezien moeten afleren. Ook na bijkomende reinforcement learningrondes en de nodige fine-tuning bleven de modellen eigenaardig gedrag vertonen. In 2023 lijkt het model naar behoren te werken en biedt het output die je kan vertrouwen. In 2024 toont datzelfde model zich bewust van zijn eigenlijke taak, en zal het met opzet kwetsbaarheden in de code verwerken.

Hardleerse AI-modellen

Ook na verdere trainingsrondes kregen de onderzoekers dit gedrag niet uit het AI-systeem. In tegendeel: door het AI-systeem beter te trainen, werd het na een tijd zelfs moeilijker om kwetsbaarheden op te sporen. In sommige gevallen kunnen die gedragingen na een tijd wel naar de achtergrond verdwijnen. Dat betekent echter niet dat ze weg zijn: AI is namelijk geprogrammeerd om op bepaalde triggers te reageren. Na verloop van tijd kunnen de systemen leren op bepaalde triggers te negeren, maar wie de exacte trigger in zijn prompt verwerkt zal altijd de geprogrammeerde reactie blijven krijgen. Kortom: wat van begin af aan in zo’n AI-model geprogrammeerd zit, zal er ook altijd in blijven zitten.

Op de vraag of grotere en geavanceerdere modellen beter weerbaar zijn tegen deze risico’s antwoorden de onderzoekers negatief. Het blijkt zelf dat grotere modellen er beter in slagen hun gedrag hetzelfde te houden, ook als dit kwaadaardig is. Hetzelfde geldt voor modellen die gebruikmaken van een zogenaamde ‘scratchpad’, waar het denkstappen op bijhoudt. Ook die slagen er beter in hun kwaadaardige gedragingen na training te behouden.

LLM’s van het internet

De conclusie van het onderzoek luidt dan ook dat LLM’s potentiële veiligheidsrisico’s vormen, en dat die niet te verhelpen zijn met veiligheidstrainingen. Taalmodellen die je van het internet downloadt zouden dan ook geprogrammeerd kunnen zijn als zogenaamd sleeper-agent. De organisatie waarschuwt dan ook tegen opensource taalmodellen die gratis te vinden zijn op het internet. Daarin kunnen namelijk kwetsbaarheden verwerkt zitten zonder dat je het weet. Zoals steeds is het een goed idee om ervoor te zorgen dat je opensource code van een betrouwbare bron komt.

Uitgelicht artikel

Militair gebruik ChatGPT plots niet meer uitgesloten

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai Anthropic AI business ChatGPT copilot LLM malware risico

Arthur De Graef

Arthur is gepassioneerd door muziek, films en games en linuxgebruiker in zijn vrije tijd. Volgens hem zit achter alles, ook de nieuwste technologie, een verhaal dat hij met plezier uitpluist.