AI-systemen kunnen slechter overweg met logica dan gedacht
Sinds de lancering van ChatGPT in november 2022 komt zo goed als elke fabrikant met een eigen AI-product. Elk systeem is slimmer dan het vorige, als we de fabrikanten mogen geloven. De grote taalmodellen die de AI-systemen aandrijven zorgen ervoor dat de modellen steeds beter kunnen nadenken, tot ze zo goed kunnen redeneren als mensen. Onderzoekers van Apple ontkrachten die stelling ten stelligste.
GSM8K-benchmark
De onderzoekers menen dat de AI-systemen niet écht logisch redeneren zoals mensen dat kunnen, maar dat de AI-systemen wel uitzonderlijk goed zijn in patroonvergelijking. Daardoor lijkt het soms alsof de taalmodellen écht nadenken, maar dat is niet waar. Alle AI-fabrikanten gebruiken dezelfde test om te controleren hoe goed hun modellen logisch kunnen nadenken. Die test heet GSM8K, en hoe hoger een product erop scoort, hoe beter het kan nadenken.
Tenminste: dat is het idee dat OpenAI, Google, Meta en andere aanbieders hebben. Onderzoekers van Apple tonen aan dat de benchmark onbetrouwbaar is en dus geen goede manier is om het logisch redeneren van meerdere AI-systemen te vergelijken. Dat komt vooral door de populariteit van de test, waardoor het risico op contaminatie bestaat. In dat geval kennen de AI-systemen de antwoorden op vragen omdat ze daarop getraind werden, en niet omdat ze zo goed kunnen redeneren.
Nieuwe test ontwikkeld
Om die hypothese te testen ontwikkelden zij bij Apple een nieuwe redeneringstest. Die noemden ze GSM-Symbolic. In essentie blijft de test dezelfde, maar verschillende variabelen werden veranderd. De onderzoekers probeerden de test uit met 20 verschillende AI-modellen. Elke keer kwamen ze tot dezelfde conclusie. De modellen presteren steeds slechter en het verschil is niet-verwaarloosbaar.
Door simpelweg namen en andere variabelen te veranderen, werden de modellen al minder accuraat. Dat effect werd duidelijker wanneer er onbelangrijke zaken aan de prompts werden toegevoegd. Daardoor kunnen AI-systemen zelfs met de simpelste vraagstukken de mist in geholpen worden. Een voorbeeldvraag:
“Olivier plukt op vrijdag 44 kiwi’s. Op zaterdag plukt hij 58 kiwi’s. Op zondag plukt hij dubbel zoveel kiwi’s als op vrijdag, maar vijf daarvan waren iets kleiner dan gemiddeld. Hoeveel kiwi’s heeft Olivier geplukt?”
Het antwoord op die vraag is natuurlijk 190 kiwi’s, maar meeste AI-systemen geraken daar niet. De systemen komen allemaal uit op 185 kiwi’s. De systemen zien dat er iets ‘mis’ is met vijf kiwi’s en trekken die daarom van het totaal af, ook al is dat helemaal niet nodig. Dat komt doordat de AI-systemen op zoek gaan naar patronen in vraagstukken zoals dit. Echt besef van wat er gevraagd wordt, lijken de AI-systemen wel niet te hebben.
Die fout zit in zo goed als alle AI-systemen, al is het bij het ene systeem wat meer uitgesproken dan bij het andere. OpenAI’s superslimme o1-model trapt ook in de val, al doet het dat minder vaak dan andere GPT-modellen, Gemma, Llama of Mistral. Het taalmodel van Microsoft, Phi, presteert het slechtst.