Apple, Nvidia en Anthropic trainen AI op YouTube-filmpjes
Computers en smartphones worden, onder meer door de AI-revolutie, steeds slimmer. Dat verstand moet natuurlijk wel van ergens komen. In het geval van AI-systemen zoals ChatGPT, Copilot en Apple Intelligence, komt dat verstand van trainingsmateriaal.
Trainingsmateriaal is onmisbaar voor wie een goed en slim AI-systeem op poten wil zetten, al komt er bij het gebruik van dat materiaal één probleem om de hoek kijken: auteursrecht. Omwille van auteursrecht of copyright is het niet zomaar toegestaan om een AI-systeem te trainen op eender welk materiaal. Er bestaat namelijk het risico dat het AI-systeem het trainingsmateriaal gaat herhalen. In het geval van teksten zou het die dan woord-voor-woord kunnen herhalen, en ook voor video’s en andere soorten trainingsmateriaal bestaat zo’n risico.
Copyrightdeals
Het verbaast dan ook niet dat content creators en uitgevers er niet blij mee zijn als er zonder toestemming met hun materiaal getraind wordt. Bedrijven als OpenAI sluiten daarvoor deals met uitgevers, waarna ze wel aan de slag kunnen met het materiaal. ChatGPT leert op die manier van Time, The Wall Street Journal, The New York Post, The Financial Times en zelfs van Reddit. Steeds werden daarvoor deals gesloten , waarbij een flink bedrag gemoeid kan gaan.
Apple heeft dan weer een deal met Shutterstock, zodat het de Intelligence met beeld van die beeldenbank kan trainen. Waar het merk geen deal mee heeft, dat is YouTube. Toch zou de iPhone-fabrikant YouTube-filmpjes gebruikt hebben om de Apple Intelligence te trainen. Daar zouden heel wat video’s van bekende YouTubers bijzitten, zoals Marques Brownlee (MKBHD), maar ook van comedians en talkshowhosts zoals Jimmy Kimmel of Stephen Colbert.
Fair use?
Niet dat het AI-systeem samen met een ingenieur naar al die video’s keek om ervan te leren. Niet alleen Apple, maar ook Nvidia, Salesforce en AI-bedrijf Anthropic maakten gebruik van YouTube-content. Dat gebeurde op een iets andere manier dan je zou verwachten: ze belden aan bij EleutherAI, een bedrijf dat AI helpt trainen, om daar gebruik te maken van hun YouTube Subtitles-dataset. Daar staat de ondertiteling van meer dan 173.536 video’s in meerdere talen in.
Of de bedrijven daar iets verkeerd mee doen? Dat zal je aan een rechter moeten vragen, en zelfs daar kunnen de meningen verschillen. Bedrijven menen vaak dat hun gebruik onder ‘fair use’ valt en dat ze dus geen rekening dienen te houden met het auteursrecht.
Benieuwd welke filmpjes er allemaal in de dataset staan? Dat kan je makkelijk opzoeken dankzij Proof News, waar ze een tool ontwikkelden om de dataset te doorzoeken.