Google wil opt-outsysteem voor datascraping
AI-systemen zoals Google’s Bard of ChatGPT van OpenAI zijn niet ‘zomaar’ intelligent geworden. Om je te helpen met taken of om een gesprek met je aan te gaan, maken de bots gebruik van hun kennis. Die kennis werd grotendeels verzameld door het internet af te schuimen en de AI-bots alle kennis te voeren die er maar te vinden is. Dat proces, dat men ‘datascraping’ of ‘schrapen’ noemt, gebeurt automatisch en heeft vaak geen oog voor auteursrechtelijk beschermd materiaal. Google wil websites nu de mogelijkheid geven om zich af te schermen van ‘scraping’.
OpenAI en Google gebruikten publiek toegankelijk materiaal om hun bots te trainen. Met andere woorden: beide bedrijven schraapten het internet af, op zoek naar trainingsmateriaal voor hun AI-systemen. Google houdt vol dat het daar niet mee in de fout ging: het gaat om informatie die voor iedereen beschikbaar is, en die dus ook voor AI-systemen toegankelijk moet zijn. Tegenstanders zeggen echter dat die datascraping illegaal zou moeten zijn. Het massaal inwinnen van data is een schending van de privacy, aldus tegenstanders.
Daarnaast wordt ook gevreesd dat de scraping-aanpak de deur openzet voor plagiaat. AI-systemen remixen als het ware alle informatie en taal die ze op internet tegenkomen. De kans is dus groot dat een AI-systeem als Bing of Bard vroeg of laat plagiaat pleegt. Daardoor zien nieuwswebsites en andere uitgevers de chatbots liever niet komen.
Opt-out voor scraping
Google doet nu een voorstel die de zorgen van de websites moeten wegnemen. Daarvoor stelt het een systeem voor dat vandaag eigenlijk al in gebruik is: via een robots.txt-bestand kunnen webbeheerders namelijk bepaalde crawlers (die het web indexeren voor zoekmachines) weghouden. Dat kan zowel voor de hele site, als voor delen van de site. Voor datascraping voor AI-modellen zou Google eenzelfde aanpak willen hanteren.
Google is daar niet de eerste in: vorige week lanceerde OpenAI zijn GPTBot. GPTBot is een webcrawler die het internet afschuimt, specifiek om ChatGPT slimmer te maken. De onthulling van de crawler ging meteen gepaard met een uitleg voor webbeheerders: hoe ze via het robots.txt-bestand de crawler van de website kunnen weren.
Opmerkelijk is dat beide bedrijven enkel opt-outmogelijkheden aanbieden. Wil je gebruik maken van auteursrechtelijk beschermd materiaal? Dan moet je daar normaal gezien expliciete toestemming om vragen. Google en OpenAI draaien de manier waarop er met auteursrecht wordt omgegaan dus volledig om. De bedrijven gaan ervan uit dat ze toestemming hebben, tenzij websites die toestemming expliciet intrekken.