Nieuws

Horen, zien en spreken: ChatGPT krijgt update

ChatGPT
© iStock / Robert Way
Spreken met ChatGPT, dat is vandaag nog altijd tikken op een toetsenbord. OpenAI zou daar echt graag verandering in brengen: het bedrijf zorgt ervoor dat hun chatbot kan horen, spreken en zien.

Spreken met een chatbot is vandaag nog altijd niet echt spontaan. Om iets gedaan te krijgen van de chatbot, moet je de vraag steeds in een geschikte prompt gieten en die intikken. OpenAI brengt ChatGPT nu tot leven met stem- en beeldmogelijkheden. Die functies worden momenteel uitgerold, waardoor je binnenkort met het AI-systeem kan spreken alsof het een echte persoon was.

Stem

Om te beginnen: je zal tegen ChatGPT kunnen spreken met je stem, waarna de chatbot ook effectief zal antwoorden alsof hij met je aan het praten is. De functie wordt mogelijk gemaakt door een tekst-to-speechmodel. Op basis van een korte tekst en enkele minuten opgenomen spraak, kan zo’n systeem als het ware zelf beginnen spreken. Daarnaast wordt hetgeen dat jij inspreekt ook meteen getranscribeerd. Daarvoor gebruikt OpenAI het Whisper-model, hun open-source model voor stemherkenning.

De stemmen waarin de bot zal spreken, zijn afkomstig van professionele stemacteurs. Om stemmen te activeren heb je de mobiele ChatGPT-app nodig. Daarin ga je naar de instellingen en kies je voor ‘New Features’. Rechts onderaan het scherm verschijnt een knop met een hoofdtelefoon op. Hier kan je kiezen welke stem ChatGPT gebruikt.

Zien

ChatGPT zal binnenkort ook kunnen zien. Met andere woorden: het is mogelijk om een afbeelding op te laden naar de chatbot. Staat daar wat meer op dan strikt noodzakelijk is? Dan kan je zelfs een kring trekken rond hetgeen waar ChatGPT naar moet kijken. ChatGPT kan afbeeldingen begrijpen dankzij de multimodale modellen GPT-3.5 en GPT-4.

Risico’s?

Er is natuurlijk altijd het risico dat AI-technologie misbruikt wordt. Zo zou het mogelijk zijn om met de stemcapaciteiten van ChatGPT een deepfake te maken. Het is om die reden dat de stemcapaciteiten enkel beschikbaar zijn in een soort van ‘voice chat’. De technologie wordt ook gebruikt door Spotify: daar werd onlangs een Voice Translation-functie onthuld, waarmee gebruikers meteen in hun eigen taal naar een podcast kunnen luisteren.

Ook aan het verwerken van beeldmateriaal zitten risico’s verbonden, aldus OpenAI. Er is altijd een risico dat het AI-systeem begint te hallucineren. Dat kan lastig zijn wanneer mensen daadwerkelijk afhangen van wat ChatGPT in een afbeelding ziet. De app Be My Eyes zorgt er bijvoorbeeld voor dat blinden en slechtzienden toch wegwijs geraken, zij het met een beetje hulp van ChatGPT. Alleen: op zulke momenten mag het systeem absoluut niet falen. Meerdere en voortdurende tests moeten ervoor zorgen dat het systeem steeds op punt blijft staan.

ChatGPT Plus

De functies zijn misschien indrukwekkend, maar niet voor iedereen te gebruiken. Stem- en beeldmogelijkheden kan je enkel gebruiken als je een ChatGPT Plus-abonnement hebt of als je een Enterprise-account voor de chatbot hebt. De stemmogelijkheden komen ergens de komende twee weken beschikbaar in de iOS-app van ChatGPT. Beeldmogelijkheden komen meteen naar zowel Android als iOS, en dat binnen diezelfde twee weken.

aiChatGPTOpenAI

Gerelateerde artikelen

Volg ons

Het is Black Friday bij bol.com!

Het is Black Friday bij bol.com!

Deals scoren