Super Mario wordt gebruikt om AI te evalueren

Hao AI Lab, dat onderzoek doet aan de University of California San Diego, besloot om verschillende AI-modellen los te laten op de klassieke Super Mario Bros.-game uit 1985, al werd het spel voor dit onderzoek wel via een emulator gedraaid. Claude 3.7 van Anthropic was het best presterende model, gevolgd door Claude 3.5. Gemini 1.5 Pro van Google en GPT-4o van OpenAI hadden het daarentegen moeilijk.
“Denkende” AI-modellen zijn te traag
Voor het experiment werd gebruik gemaakt van GamingAgent, een framework dat door Hao AI Lab zelf werd ontwikkeld om AI-modellen aan de slag te laten gaan met videogames. Via GamingAgent kunnen de AI-modellen basisinstructies krijgen, bijvoorbeeld dat ze in een bepaalde richting moeten springen wanneer er een obstakel of vijand nadert. Het AI-model analyseert dan het beeld van het spel en produceert Python-code als inputs om Mario mee te besturen.
Hoewel de AI-modellen basisinstructies kregen, moesten ze wel nog steeds ‘leren’ hoe ze een level van Super Mario Bros. tot een goed einde konden brengen. Daarbij werd duidelijk dat denkende modellen, zoals GPT-o1, het slechter deden dan modellen die niet redeneren en een probleem stap voor stap analyseren alvorens met een oplossing te komen. Nochtans scoren zulke denkende AI-modellen over het algemeen beter, maar dus niet wanneer het aankomt op het spelen van dergelijke real-time games. Dat heeft natuurlijk te maken met het feit dat zulke modellen meer tijd nodig hebben alvorens ze een beslissing nemen en dan ben je in een spel als Super Mario Bros. vaak al te laat.
Niet noodzakelijk nuttig
Of dergelijk onderzoek ook echt nuttig is, daar zijn de meningen verdeeld over. Natuurlijk is het leuk om te zien hoe een AI-model Super Mario Bros. speelt, maar meer dan dat is het vaak niet. Er wordt bijvoorbeeld getwijfeld aan het nut van games voor het trainen van AI-modellen als die games vaak maar een abstracte en vereenvoudigde versie van de werkelijkheid zijn. De echte wereld zou dus te complex zijn voor AI-modellen als ze alleen maar spelletjes voor de kiezen hebben gekregen.
Nochtans worden games graag gebruikt om het kunnen van AI-modellen in de schijnwerpers te plaatsen, al is het dus de vraag of dat niet eerder met marketing te maken heeft dan met echt wetenschappelijke innovatie. Het heeft er alleszins toe geleid dat sommige onderzoekers zich luidop de vraag stellen hoe we AI-modellen tegenwoordig het best kunnen evalueren.













