Google traint AI om stemmen te onderscheiden
Google is erin geslaagd om een neuraal netwerk te ontwikkelen dat een specifieke stem kan isoleren bij video’s waar de audio uit één track bestaat. De technologie zou in de toekomst gebruikt kunnen worden om onder andere hoorapparaten te verbeteren en de kwaliteit van videogesprekken op te krikken.
Audio en video
Mensen zijn van nature uitgerust met de vaardigheid om zich te concentreren op één spreker, ook wanneer er nog andere geluiden in de achtergrond spelen. Computers bezitten dat talent niet, zij moeten daarvoor geprogrammeerd worden. Dat is echter gemakkelijker gezegd dan gedaan, want er komen zoveel factoren bij kijken dat het erg moeilijk is om de vaardigheid via traditioneel programmeren om te zetten in computertaal.
[related_article id=”217521″]Artificiële intelligentie biedt een antwoord: door via machine learning software te trainen op het ontwaren van een stem, kan een computer wel een bepaalde stem uitpikken tussen alle andere geluiden, ook als er meerdere mensen aan het praten zijn. Om dat mogelijk te maken combineerde Google auditieve data met visuele data: het leerde zijn algoritme om klanken te verbinden met het bewegen van een mond en andere visuele signalen die aangeven dat iemand aan het spreken is.
2.000 uur aan sprekers
Concreet schotelde Google het algoritme 2.000 uur aan videoclips voor met één duidelijk zichtbare spreker, waar het bedrijf artificieel achtergrondgeluid aan toevoegde. Op basis van die data leert het netwerk om auditieve en visuele signalen te onderscheiden, en kan het door de combinatie van beide een bepaalde stem uit een audiotrack halen. Google testte de AI onder andere met succes uit op een videoclip waarin twee comedians tegelijkertijd spreken.