28 oktober 2024 15:34

Whisper (OpenAI) verzint te vaak tekst bij transcripties

Whisper, het onderdeel van OpenAI dat gesproken boodschappen omzet in transcripties, gaat veel te vaak in de fout door te hallucineren en zelf inhoud te verzinnen.

In de Verenigde Staten wordt Whisper al vaak ingezet voor het transcriberen van gesproken notities in medische centra. Stel je voor: je gaat naar de dokter, vertelt precies wat je voelt, maar later verschijnt er een transcriptie die je verhaal verdraait en aanvult met onjuiste informatie. De kans dat dat gebeurt is reëel, aldus de Amerikaanse zender ABC News.

Een tiental ontwikkelaars, software-ingenieurs en academische onderzoekers hebben ontdekt dat Whisper geregeld ‘hallucinaties’ produceert, verzonnen tekst. Die bevat niet-bestaande medicatie, opmerkingen over het ras van patiënten en gewelddadige uitspraken. Desondanks werd de nieuwste versie van Whisper afgelopen maand maar liefst 4,2 miljoen keer gedownload op het open-sourceplatform Hugging Face. Bovendien is de tool geïntegreerd in de cloudplatformen van Oracle en Microsoft, en sommige versies van ChatGPT.

Whisper: verzonnen tekst in 8 op de 10 transcripties

De problemen zijn wijdverspreid: experts signaleren serieuze gebreken in Whisper. Zo vond een onderzoeker van de University of Michigan verzonnen tekst in acht van de tien transcripties van openbare vergaderingen. In een andere studie ontdekten computerwetenschappers 187 hallucinaties bij de analyse van ruim 13.000 audiobestanden. En het blijft niet bij enkele gevallen. Een machine learning-ingenieur zag hallucinaties in de helft van meer dan honderd uur aan transcripties, terwijl een ontwikkelaar ze vond in vrijwel alle 26.000 transcripties die hij door Whisper liet maken.

De ernst van de situatie blijkt duidelijker uit specifieke voorbeelden. Twee professoren, Allison Koenecke van Cornell University en Mona Sloane van de University of Virginia, onderzochten fragmenten uit een onderzoeksdatabase genaamd TalkBank. Bijna 40 procent van de hallucinaties kon volgens hen verkeerd geïnterpreteerd of misbruikt worden. Zo verzon Whisper dat drie besproken personen zwart waren. In een ander voorbeeld werd de tekst “He, the boy, was going to, I’m not sure exactly, take the umbrella.” omgezet in “He took a big piece of a cross, a teeny, small piece … I’m sure he didn’t have a terror knife so he killed a number of people.”

Risico’s in medische wereld

Whispers hallucinaties kunnen zelfs risicovol zijn in de medische wereld. Nabla, een bedrijf dat Whisper gebruikt voor medische transcripties, levert diensten aan meer dan 30.000 zorgverleners en 40 zorgsystemen, wat tot nu toe naar schatting zeven miljoen consultaties omvat. Het bedrijf is zich bewust van het probleem en stelt verbeteringen door te voeren, maar een manier om de nauwkeurigheid van de transcripties te controleren ontbreekt nog. Volgens Martin Raison, de CTO van Nabla, verwijdert het bedrijf alle audio na transcriptie om ‘dataveiligheidsredenen’. Artsen moeten de tekst bovendien snel controleren en goedkeuren (alsof ze daar de tijd voor hebben), maar dat proces staat mogelijk op de nominatie om te veranderen. Echter, door privacywetten kan niemand anders bevestigen of de transcripties daadwerkelijk kloppen.

Uitgelicht artikel

Microsoft komt met AI-tool om hallucinaties te corrigeren

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

artificiele intelligentie ontspanning OpenAI

Marijn Ceulemans

Gebruikt zijn iPhone als Google-telefoon. Deze allround-nieuwsgierigaard heeft een passie voor wagens en gaming. Hij droomt ook graag weg over ruimtevaart.