15 januari 2024 10:25

Meta geeft toe: LLaMa trainde op illegaal verkregen data

Meta geeft toe dat het een omstreden dataset gebruikte om het taalmodel LLaMa te trainen. Betalen wil het bedrijf echter niet.

Al in juli klaagden verschillende auteurs Meta en OpenAI aan. Onder anderen Sarah Silverman, Richard Kadrey en Christopher Golden trokken toen naar de rechtbank om het oneigenlijk gebruik van hun werk aan te kaarten. Meta geeft nu uiteindelijk toe dat het auteursrechtelijk beschermd materiaal gebruikt werd om het taalmodel LLaMa slimmer te maken. Het bedrijf betaalde niet om de content te mogen gebruiken, maar ook niet voor de content zelf.

De zaak van de drie auteurs tegen OpenAI heeft te maken met de resultaten die de chatbot genereert. Het systeem ziet er geen graten in en heeft er geen problemen mee om boeken van Silverman samen te vatten. Met andere woorden: ChatGPT heeft de boeken van Sarah Silverman – en van de andere auteurs – gelezen. Het chatsysteem vat de boeken daardoor mooi samen, maar vergeet één cruciaal element. Het systeem vermeldt namelijk niet wie de boeken geschreven heeft en vermeldt de rechtenhouders niet.

ThePile

De rechtszaak tegen Meta ziet er iets anders uit: daarin gaat het de auteurs vooral om de dataset die Meta gebruikte om het systeem te trainen. In een paper waarin het bedrijf de ontwikkeling van het LLaMa-taalmodel uiteenzet, verwijst het naar een dataset ‘ThePile’. Die dataset, samengesteld door EleutherAI, bestaat uit illegaal gedownloade boeken. Meta zou inderdaad een deel van die dataset gebruikt hebben om het AI-model te trainen. Wel gaat het om een flink deel: de books3-dataset die Meta gebruikte zou ongeveer 195.000 boeken bevatten en is ongeveer 37 GB groot.

ThePile en diens subset books3 werden in 2020 samengesteld als interessante bron voor machine learningalgoritmes. ThePile werd uiteindelijk een groot project met als doel om opensource data voor taalmodellen te verzamelen. Enige probleem is dat de gegevens in de dataset niet rechtenvrij zijn. De betrokken auteurs, van wie er boeken in de dataset zitten, hebben nooit toestemming gegeven om AI te trainen met hun boeken.

Meta geeft toe

In het kader van de rechtszaak geeft Meta toe inderdaad de books3-dataset gebruikt te hebben om het LLaMa-taalmodel te trainen. Toch is het bedrijf niet van plan om auteurs voor hun werk te vergoeden: het gaat namelijk om ‘fair use’, zegt Meta. Volgens de Amerikaanse auteursrechtenwetgeving moet Meta niet betalen als het inderdaad om fair use gaat.

Of dat ook zo is, dat is aan de rechter om te beslissen. Met de zaak staat of valt veel voor andere AI-aanbieders. ThePile is, ondanks de illegaal verkregen inhoud, publiekelijk beschikbaar. Heel wat bedrijven gebruikten de dataset dan ook om hun AI-toepassingen vernuftiger te maken. Of er straffen komen te staan op het gebruik van de datasets zal grotendeels van de rechtszaken tegen OpenAI en Meta afhangen.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai auteursrecht Beveiliging business llama meta OpenAI rechtszaak

Arthur De Graef

Arthur is gepassioneerd door muziek, films en games en linuxgebruiker in zijn vrije tijd. Volgens hem zit achter alles, ook de nieuwste technologie, een verhaal dat hij met plezier uitpluist.