1 augustus 2023 10:16

ChatGPT helpt onderzoeker om AI-beveiliging te ontwijken

Met taalmodellen kan je tegenwoordig heel wat doen, zoals je laten helpen bij je dagelijks werk of andere AI-systemen om de tuin leiden.

Nicholas Carlini, een onderzoeker in het Deep Mind-project van Google, probeert al een tijdje te bewijzen dat AI-beveiligingssystemen te wensen overlaten. Om aan te tonen hoe AI-Guardian, zo’n veiligheidssysteem dat in modellen ingebouwd kan worden, misleid kan worden vroeg Carlini vooral raad aan ChatGPT. Carlini’s onderzoekspaper “A LLM Assisted Exploitation of AI-Guardian” beschrijft dan ook niet enkel hoe AI-Guardian voor de gek gehouden kan worden, maar ook hoe ChatGPT een belangrijke hulp was om het antwoord te verkrijgen.

De tool die gekraakt werd, AI-Guardian, wordt vooral gebruikt om de manipulatie van beelden op te sporen. Het is algemeen geweten dat vooral systemen voor beeldclassificatie het moeilijk hebben met valse inputs. Zo kan je op een foto waarop een verkeersbord staat maar enkele wijzigingen aan te brengen – een veeg hier en daar, een paar pixels in een andere kleur… – om ervoor te zorgen dat het AI-systeem het verkeersbord niet ziet. Natuurlijk: dat is een ramp voor zelfrijdende auto’s, en meteen ook waarom een systeem als AI-Guardian in het leven geroepen werd.

AI-Guardian

AI-Guardian werd ontwikkeld door Hon Zhu, Shengzhi Zhang en Kay Chen, en werd in 2023 voorgesteld. De tool moet dus zien wanneer er aan beelden gesleuteld werd, zodat het zelfrijdende en andere systemen voor vals beeldmateriaal kan behouden. Zo’n systeem gebruikt allerlei manieren om te zien wanneer er aan afbeelding geknutseld werd – en weet zich ertegen te beveiligen. Daarom worden afbeeldingen met ‘verdachte’ oneffenheden en artifacten vaak geweerd door AI-Guardian: ze moeten de kans verlagen dat er gemodificeerd beeldmateriaal gebruikt wordt.

Zo’n systeem hanteert wel altijd een systematische aanpak om te bepalen welke beelden niet gebruikt mogen worden. Met andere woorden: er zijn bepaalde elementen die het systeem doen deken “dit is fake”. Nicholas Carlini en ChatGPT spoorden die elementen op door de AI-Guardian telkens licht verschillende afbeeldingen te laten zien. Pixel per pixel werd er iets aangepast aan de afbeelding, tot de onderzoeker kon vaststellen wat het systeem precies herkende. Uiteindelijk kon, aan de hand van een Python-script dat ChatGPT genereerde, het beveiligingssysteem om de tuin geleid worden.

Moeilijk haalbaar

De onderzoekers en de ontwikkelaars van AI-Guardian halen wel aan dat zo’n hack in het echt veel minder makkelijk is. Carlini had namelijk toegang tot een aantal belangrijke gegevens binnen het systeem, waardoor hij een meer gerichte aanpak kon hanteren. Dat is echter niet altijd mogelijk: de ‘zekerheidsvector’, een van de gegevens die Carlini kon gebruiken, is normaal gezien namelijk niet te vinden voor aanvallers.

Toch toont de kraak van AI-Guardian aan dat de mogelijkheden met AI bijzonder ver reiken. Carlini is dan ook enthousiast over zijn volgende onderzoek én over de rol die chatbots daarin zullen spelen. Zeker repetitieve taken kunnen door GPT tot een goed einde gebracht worden. Voor andere taken ligt het moeilijker: daar is toch steeds meer domeinspecifieke kennis voor vereist dan ChatGPT bezit. Voorlopig is het dus echt wel nodig dat er een onderzoeker over de schouder van AI meekijkt.

Uitgelicht artikel

OpenAI maakt GPT-4-API publiek beschikbaar, meerdere API’s verdwijnen

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai Beveiliging ChatGPT LLM

Arthur De Graef

Arthur is gepassioneerd door muziek, films en games en linuxgebruiker in zijn vrije tijd. Volgens hem zit achter alles, ook de nieuwste technologie, een verhaal dat hij met plezier uitpluist.