Nieuwe dreiging: AI kan bewust liegen om doel te bereiken

OpenAI noemt het “scheming”, waarbij het AI-systeem doet alsof het netjes meewerkt terwijl het in werkelijkheid liegt en informatie achterhoudt om een bepaald doel te bereiken. Eerder werd al vermoed dat AI-modellen dit gedrag zouden kunnen vertonen, maar nu is het ook echt waargenomen in een reeks gecontroleerde proeven die reële situaties nabootsen. AI die ons “bewust” misleidt, is dus niet louter een theoretisch risico.
De onderzoekers benadrukken dat er momenteel geen aanwijzingen zijn dat bestaande AI-modellen die door consumenten gebruikt worden plots de knop omdraaien en beginnen met liegen en bedriegen, maar in bepaalde omstandigheden is het dus wel een reëel risico. Vooral bij meer complexe opdrachten op langere termijn zou het risico toenemen.
Prikkels om te misleiden
Voor zijn onderzoek creëerde OpenAI om te beginnen een omgeving die het AI-model verleidt tot bedrog. Dat gebeurt veelal door een doel te stellen dat makkelijker bereikt kan worden door te misleiden. Als het AI-model prioriteit geeft aan het doel en de bijhorende beloning, dan kan het op eigen houtje beslissen om te liegen om dat doel (schijnbaar) te bereiken. Het AI-model geeft dan de absolute prioriteit aan het binnenhalen van de beloning, ten koste van bijvoorbeeld eerlijkheid.
Je zou een AI-model bijvoorbeeld de opdracht kunnen geven om een bepaalde taak binnen 30 seconden uit te voeren, maar daarbij moeten wel enkele specifieke stappen gevolgd worden. Als het AI-model merkt dat al die stappen niet haalbaar zijn binnen 30 seconden, dan kan het ervoor kiezen om stiekem een stap over te slaan om toch op tijd klaar te zijn. In het dagelijks gebruik van AI-modellen komen dergelijke “kleine leugens” nu ook al voor, maar ze zijn vaak makkelijk te spotten en te corrigeren. Bovendien gaat het niet altijd om bewuste leugens van het model in kwestie, maar eerder om een technisch foutje omdat het AI-model bijvoorbeeld niet goed weet wat je precies vraagt.
Wat onderzoekers van OpenAI nu dus ontdekt hebben, is dat AI-modellen omwille van de “beloning” die ze krijgen voor het voltooien van een taak soms bewust kiezen om een taak niet zoals het hoort uit te voeren, om toch maar die beloning te krijgen. Stappen worden dan overgeslagen, informatie wordt verzwegen of er wordt ronduit gelogen over bepaalde zaken.
Risico beperken
Het risico op “scheming” neemt toe naarmate aan bepaalde voorwaarden voldaan wordt. Zo moet het AI-model prioriteit geven aan het doel en de bijhorende beloning. Daarnaast moet het AI-model weten dat het gecontroleerd wordt, omdat het in dat geval net extra zijn best zal doen om leugens te verbergen. Tot slot moet het daartoe natuurlijk ook de technische middelen hebben.
Het voordeel van het kennen van de risicofactoren is dat ze op die manier beperkt kunnen worden. Zo hebben onderzoekers de hoeveelheid “scheming” aanzienlijk kunnen terugdringen door het AI-model op voorhand duidelijk te maken dat bepaalde zaken absoluut niet mogen, waaronder dus liegen en bedriegen om een doel te bereiken. Voor elke nieuwe opdracht kan het AI-model die absolute regels opnieuw voorgeschoteld krijgen, in de hoop dat ze gerespecteerd worden.
Opvallend genoeg lijkt het risico op “scheming” niet helemaal tot nul herleid te kunnen worden. In sommige gevallen zorgden extra controle en veiligheidsmaatregelen er net voor dat het AI-model nog beter zijn best ging doen om zaken te verdoezelen. Dat heeft natuurlijk te maken met de manier waarop AI-modellen werken, met een stevige prioriteit aan het verkrijgen van de beloning die hen voorgehouden wordt als ze een taak (schijnbaar) vervullen.
Zoals gezegd lijkt er momenteel geen groot risico dat AI-modellen plots compleet beginnen te ontsporen en hun eigen ding beginnen doen, maar het is wel weer een extra lampje dat is gaan knipperen wat de risico’s van AI betreft. OpenAI benadrukt trouwens dat alle AI-modellen hier vatbaar voor lijken, en dat het dus een algemeen AI-probleem is dat zich niet beperkt tot OpenAI alleen.











