Er is geen nieuwe data meer om AI-systemen te trainen
Experts zeiden het eerder al en nu valt ook Elon Musk hen bij: er is geen nieuwe data meer om AI op te trainen. Tijdens een livestream op X zei Musk dat “de totale som van menselijke kennis uitgeput is” voor de training van AI-systemen. Voor wie in de AI-branche werkt, is dat geen verrassing: vorig jaar zou dat namelijk al gebeurd zijn.
Op de NeurIPS-conferentie, waar het over machine learning gaat, zei ex-OpenAI-werknemer Ilya Sutskever hetzelfde: AI heeft “peak data” bereikt. Er is simpelweg niet genoeg data meer om nieuwe AI-modellen te trainen: alle data waar de bedrijven aan mogen komen, werd inmiddels gebruikt. Met andere woorden: er is niet voldoende data om AI slimmer te maken. Dat zorgt ervoor dat ontwikkelaars op zoek moeten naar nieuwe manieren om AI te trainen.
Synthetische data als oplossing
Musk suggereert, in het kielzog van AI-experts, dat synthetische data dé manier is om het tekort te overbruggen. Synthetische data is data die door een AI-systeem zelf gecreëerd wordt. De bedoeling is dat het AI-systeem zelf die trainingsdata maakt en zichzelf daarna ook punten geeft op hoe goed het die kan verwerken. Die aanpak is niet eens heel vernieuwend. Een aantal grote AI-bedrijven gebruikt vandaag al synthetische data om AI-modellen mee te trainen. Zowel OpenAI, Microsoft, Meta en Anthropic zouden de techniek vandaag al gebruiken. Onderzoeksbureau Gartner schat zelfs dat synthetische data er gemiddeld 60% van alle data uitmaakt.
Data uit de echte wereld blijft wel belangrijk. De Gemma-modellen van Google werden getraind met synthetische data, maar niet uitsluitend. Meta zou dan weer synthetische data gebruiken om hun AI-modellen te finetunen. Een groot deel van de training berust echter op data die uit de echte wereld afkomstig is en waar nu een tekort aan lijkt te zijn.
Behalve dat synthetische data het gebrek aan échte data kan helpen overbruggen, hangt er nog een ander voordeel aan vast. Zo zorgt de synthetische data ervoor dat het veel goedkoper wordt om een AI-model te trainen. Goedkoop is soms echter duurkoop: veel hangt af van de kwaliteit van de synthetische data. Als die niet helemaal in orde is, kan dat ervoor zorgen dat AI-systemen minder creatief worden en minder goed werken in het algemeen.