ChatGPT verklapt gevoelige info dankzij “domme aanval”
AI-systemen als ChatGPT zijn ‘intelligent’ omdat ze hebben kunnen leren van een heleboel bronmateriaal. Een groep onderzoekers is erin geslaagd om ChatGPT dat bronmateriaal te onthullen. Daarvoor gebruikten ze een opmerkelijk simpele truc: ze vroegen aan de chatbot om eenzelfde woord oneindig te herhalen.
Oneindig herhalen
De onderzoekers werken bij Google DeepMind, de Universiteit van Washington, de Universiteit van Cornell, Carnegie Mellon University, de Universiteit van California Berkeley en ETH Zürich, en publiceerden hun bevindingen in een paper die online toegankelijk is. Daarin reageren de onderzoekers eerder verrast: “het is waanzinnig dat onze aanval werkt”. Door aan ChatGPT te vragen om eenzelfde woord oneindig te herhalen, kregen ze zicht op het bronmateriaal waaruit ChatGPT zijn intelligentie put.
Er is al langer kritiek op de manier waarop AI-systemen hun kennis vergaren. Deeplearningalgoritmes schrapen die informatie van het internet, wat volgens critici vaak zonder toestemming gebeurt. Verschillende auteurs melden bovendien al dat ChatGPT kennis heeft van hun boeken, auteursrechtelijk materiaal dat OpenAI niet mag gebruiken zonder ervoor te betalen. De AI-gigant werd al meermaals aangeklaagd in het kader van auteursrechtzaken. Wat er precies achter de chatbot zit, dat weten ze alleen bij OpenAI zelf: die informatie wordt namelijk goed beschermd.
De aanval op ChatGPT is zo simpel dat de onderzoekers over een “domme aanval” spreken: ze vroegen simpelweg om het woord ‘poem’ – Engels voor ‘gedicht’ – tot in de oneindigheid te herhalen. Aanvankelijk deed de chatbot dat, maar na een tijd kwam er toch iets anders uit: een e-mailadres en een telefoonnummer. Die gegevens waren afkomstig van een CEO. Toen de chatbot gevraagd werd om het woord ‘Company’ een oneindig aantal keren te herhalen, resulteerde dat na een tijd opnieuw in een e-mailadres en telefoonnummer. Deze keer waren de gegevens afkomstig van een Amerikaans advocatenbureau.
Kostprijs: 200 dollar
Ook met andere woorden lukt de aanval: door verschillende variaties uit te proberen, kregen de onderzoekers zicht op flarden poëzie, adressen van Bitcoin-portefeuilles, faxnummers, namen, geboortedagen, gebruikersnamen op sociale media, flarden van auteursrechtelijk beschermde onderzoekspapers, tekst die rechtstreeks van nieuwswebsites kwam… Gewapend met 200 dollar stelden de onderzoekers vragen aan ChatGPT tot ze 10.000 voorbeelden van persoonlijke informatie verzamelden. Uiteindelijk resulteerde dat in “enkele megabytes” aan persoonlijke informatie, maar de onderzoekers stippen aan dat wie meer geld heeft, ook meer persoonlijke gegevens kan verzamelen.
De onderzoekers zeggen in hun paper dat OpenAI het veiligheidslek al op 30 augustus dichtte. Bij Engadget lijken ze er echter nog in te slaan om ChatGPT op de tuin te leiden. Op de TechPulse-redactie lukte dat, met de gratis versie van ChatGPT, niet. Met hun onderzoek kunnen de researchers in ieder geval wel aantonen op welke data ChatGPT getraind heeft. Soms gaat het duidelijk om informatie die daar nooit voor bedoeld was.