DeepSeek werkt aan zelflerende AI-modellen

De slimmere AI-modellen kunnen zo sneller vooruitgang boeken, waarmee DeepSeek fors kan besparen op operationele kosten, zo meldt The Edge Malaysia. DeepSeek verraste begin dit jaar de markt met een krachtig, maar betaalbaar AI-model dat sterk presteerde en (op het eerste gezicht) gelijkaardige prestaties kon voorleggen als die van gevestigde waarden ChatGPT (OpenAI) en Claude AI (Anthropic).
Nu gaat het bedrijf nog een stap verder. Samen met onderzoekers uit Beijing publiceerde het AI-bedrijf een paper waarin ze een nieuwe aanpak voor ‘reinforcement learning’ beschrijven. Die techniek moet AI-systemen helpen om beter te reageren op menselijke voorkeuren, door hen te belonen voor nauwkeurige en begrijpelijke antwoorden.
DeepSeek-GRM
Hoewel reinforcement learning al succesvol wordt toegepast in gespecialiseerde AI-toepassingen, bleek het moeilijk om de techniek te generaliseren naar bredere scenario’s. Daar probeert DeepSeek verandering in te brengen met een aanpak die ze ‘self-principled critique tuning’ noemen. Volgens de onderzoekers presteert deze methode beter dan bestaande technieken en modellen, met minder rekenkracht.
Het resultaat is een nieuw type model: DeepSeek-GRM, wat staat voor generalist reward modelling. Het bedrijf heeft aangekondigd dat het deze modellen open source beschikbaar zal maken, zodat ook andere ontwikkelaars ermee aan de slag kunnen.
Zelflerende modellen op komst
DeepSeek is niet de enige speler die inzet op AI-modellen die zichzelf kunnen verbeteren tijdens het uitvoeren van taken. Ook techgiganten als Alibaba en het Amerikaanse OpenAI werken aan vergelijkbare technologieën die AI in staat stellen om zichzelf bij te sturen op basis van real-time feedback.
Daarnaast lanceerde Meta (het moederbedrijf van Facebook) dit weekend zijn nieuwe Llama 4-model, dat voor het eerst gebruikmaakt van een mixture of experts-architectuur (MOE). Diezelfde aanpak gebruikt DeepSeek ook in zijn modellen om efficiënter met rekenkracht om te gaan. Meta heeft zijn nieuwe release zelfs vergeleken met de prestaties van DeepSeek, wat aantoont hoe serieus de start-up genomen wordt in de internationale AI-race.
Wanneer DeepSeek zijn volgende grote model lanceert, is nog niet bekendgemaakt. Maar de samenwerking met Tsinghua University zet alvast een belangrijke stap richting slimmere, snellere en zelfkritische AI.