19 juni 2023 15:21

Voicebox moet ChatGPT-concurrent voor audio worden

Meta heeft Voicebox voorgesteld. Het generatieve AI-model wordt erop getraind om tekst om te zetten naar gesproken boodschappen.

Meta omschrijft Voicebox als “een non-autoregressief flow-matchingmodel dat erop getraind is om gesproken dialoog te genereren op basis van tekst”. De kunstmatige intelligentie zal dus in staat zijn om met gesproken woorden te reageren, nadat het voldoende audiocontext verworven heeft. Het moet met andere woorden kunnen uitgroeien tot een ChatGPT-concurrent die niet met tekst, maar audio reageert.

Daarvoor heeft Meta het model naar eigen zeggen al meer dan 50.000 uren laten trainen met audiogesprekken. De socialmediareus gebruikte daarvoor transcripties van audioboeken in verschillende talen, zijnde het Engels, Frans, Spaans, Duits, Pools en Portugees.

Het AI-model leerde in eerste instantie gesproken boodschappen voorspellen, door te kijken naar wat ervoor en erna geschreven werd. Na verloop van tijd zou Voicebox met een voldoende grote dataset in staat moeten zijn om gesproken audio te genereren die op een echte conversatie lijkt en dat in elke van de vermelde talen.

Voicebox opent perspectieven

Op termijn zou Voicebox zelfs zo slim moeten worden dat het woorden die fout uitgesproken worden kan detecteren en corrigeren. Ook achtergrondgeluid en niet-relevante audio kan weggehaald worden, meent Meta. De socialmediagigant houdt de code wel angstvallig geheim, omdat een te vroege publieke release tot misbruik zou kunnen leiden, klinkt het.

Uitgelicht artikel

Meta wijzigt procedure om accounts te verwijderen

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai meta ontspanning

Marijn Ceulemans

Gebruikt zijn iPhone als Google-telefoon. Deze allround nieuwsgierigaard heeft een passie voor wagens en gaming. Hij droomt ook graag weg over ruimtevaart.