Meta gebruikte tot 82 TB aan illegaal gedownload materiaal om AI te trainen

Meta, het bedrijf achter Facebook, Instagram en Whatsapp, ligt opnieuw onder vuur. Het bedrijf is momenteel verwikkeld in een rechtszaak die draait om het onrechtmatig gebruik van auteursrechtelijk beschermd materiaal voor de ontwikkeling van AI-modellen. Een groep auteurs heeft de techgigant aangeklaagd en beweert dat Meta enorme hoeveelheden beschermde content heeft gedownload zonder toestemming.
De aanklacht dateert van 2023, maar werd toen verworpen door de rechter. In januari 2025 werd uiteindelijk een nieuwe zaak aangespannen, waarin de auteurs stellen dat Meta niet alleen boeken zonder toestemming heeft gebruikt voor het trainen van zijn Llama AI-modellen, maar dit ook op veel grotere schaal heeft gedaan dan aanvankelijk gedacht. Waar eerder werd uitgegaan van 32 TB aan data, zou dat in werkelijkheid maar liefst 82 TB bedragen.
Torrenten op zakelijke laptops
Volgens de nieuwe informatie zou Meta niet alleen de database van LibGen hebben gebruikt, maar ook bestanden van Anna’s Archive en Z-Library hebben binnengehaald. Dit zijn, net zoals LibGen, platformen die toegang bieden tot wetenschappelijke en literaire werken zonder officiële licentie. “We zouden geen gebruik moeten maken van illegaal verkregen materiaal”, zou een senior AI-onderzoeker in 2022 hebben gezegd over het gebruik van materiaal van die sites. Een andere medewerker vergeleek de platforms met torrentsites zoals The Pirate Bay en stelde dat ze inbreuk maken op auteursrechten.
Opvallend is dat Mark Zuckerberg, de CEO van Meta, volgens de aanklagers volledig op de hoogte was van de herkomst van deze datasets. In een vergadering in 2023 zou hij het gebruik ervan desondanks hebben goedgekeurd. Interne berichten tonen zelfs aan dat sommige werknemers zich ongemakkelijk voelden bij de werkwijze. “Torrenten vanaf een zakelijke laptop voelt niet goed”, schreef een werknemer naar een collega. De documenten suggereren verder dat Meta bewust heeft geprobeerd om het downloaden van deze datasets te verbergen. Dit zou erop kunnen duiden dat het bedrijf zich bewust was van mogelijke juridische problemen en maatregelen nam om detectie te voorkomen.
Het zal waarschijnlijk nog maanden, misschien zelfs jaren duren voordat er een definitief oordeel komt. Mocht de uitspraak in het nadeel van Meta zijn, dan is een beroep vrijwel zeker, waardoor de juridische strijd nog langer zal voortduren.