13 april 2018 10:28

Google traint AI om stemmen te onderscheiden

Als mens heb je het snel door wanneer meer dan één persoon tegen je aan het praten is, een computer pikt dat niet zo snel op. Google tackelde het probleem met succes door audio en video te combineren.

Google is erin geslaagd om een neuraal netwerk te ontwikkelen dat een specifieke stem kan isoleren bij video’s waar de audio uit één track bestaat. De technologie zou in de toekomst gebruikt kunnen worden om onder andere hoorapparaten te verbeteren en de kwaliteit van videogesprekken op te krikken.

Audio en video

Mensen zijn van nature uitgerust met de vaardigheid om zich te concentreren op één spreker, ook wanneer er nog andere geluiden in de achtergrond spelen. Computers bezitten dat talent niet, zij moeten daarvoor geprogrammeerd worden. Dat is echter gemakkelijker gezegd dan gedaan, want er komen zoveel factoren bij kijken dat het erg moeilijk is om de vaardigheid via traditioneel programmeren om te zetten in computertaal.

[related_article id=”217521″]

Artificiële intelligentie biedt een antwoord: door via machine learning software te trainen op het ontwaren van een stem, kan een computer wel een bepaalde stem uitpikken tussen alle andere geluiden, ook als er meerdere mensen aan het praten zijn. Om dat mogelijk te maken combineerde Google auditieve data met visuele data: het leerde zijn algoritme om klanken te verbinden met het bewegen van een mond en andere visuele signalen die aangeven dat iemand aan het spreken is.

2.000 uur aan sprekers

Concreet schotelde Google het algoritme 2.000 uur aan videoclips voor met één duidelijk zichtbare spreker, waar het bedrijf artificieel achtergrondgeluid aan toevoegde. Op basis van die data leert het netwerk om auditieve en visuele signalen te onderscheiden, en kan het door de combinatie van beide een bepaalde stem uit een audiotrack halen. Google testte de AI onder andere met succes uit op een videoclip waarin twee comedians tegelijkertijd spreken.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai audio google

Nina van Hoof

Nina’s internetleven draait op Windows en Android, haar muziek op een iPod en Spotify. Ze selecteert elke dag het nieuws dat je moet gelezen hebben en schrikt er niet voor terug om ook de zakelijke kant van IT te belichten.