25 september 2017 09:27

Spraaktechnologie door de jaren heen

De eerste spraakherkenningssystemen dateren al uit de jaren 50. Tegen deze software kon je echter nog niet praten; enkel een beperkt aantal getallen en woorden werden door de technologie herkend.

[related_article id=”218765″]

Eén van de dingen die mensen van dieren onderscheiden, is spraak. In plaats van naar lichaamstaal te moeten kijken en naar abstracte keelklanken te moeten luisteren om te begrijpen wat onze soortgenoten willen, kunnen we in woorden uitdrukken wat er in ons omgaat. Al zijn er nog regelmatig situaties waarbij onze taal niet uitgebreid genoeg lijkt te zijn om onszelf perfect uit te drukken, toch is het een grote vooruitgang ten opzichte van waar de eerste homo sapiens toe in staat waren. Door de jaren heen zijn we er als ras in geslaagd onze taal zodanig bij te schaven dat we elkaar – in de meeste gevallen – kunnen begrijpen.

Jaren vijftig: spraaktechnologie?

In het digitale tijdperk lopen we echter tegen een nieuw probleem aan. Hoe leggen we aan machines uit wat we van hen verlangen? Het meest gebruikte medium om met toestellen te communiceren, is vooralsnog het toetsenbord. De ontwikkeling van technologie staat echter niet stil, waardoor ook andere interfaces op de markt belanden. Spraakherkenning is hiervan de technologie die voor de praatgrage mens het meest natuurlijk aanvoelt. We hebben er als mens tienduizenden jaren over gedaan om onze spraak te perfectioneren. Gelukkig gaat de vooruitgang van spraakherkenningstechnologie een stuk sneller.

De eerste technologie die je met je stem kon aansturen, kan je moeilijk spraakherkenningstechnologie noemen. De software begreep immers maar een handvol woorden. Denk hierbij aan een automatisch antwoordapparaat dat je verschillende menukeuzes geeft. Door het juiste getal uit te spreken, ga je naar het menu van jouw keuze. In woorden uitleggen naar welk menu je wilt gaan, zal echter op niets uitdraaien; de software is niet in staat natuurlijke spraak te begrijpen.

Nummers

Bell Laboratories ontwikkelde in 1952 het ‘Audrey’-systeem, dat getallen herkende die door één stem werden uitgesproken. Pas vele jaren later werden korte woordjes toegevoegd aan de vocabulaire van spraakherkenningssystemen. Zo demonstreerde IBM in 1962 tijdens de World’s Fair de ‘Shoebox’-machine. Dat toestel was in staat om getallen van nul tot negen en zestien Engelse woorden te verstaan.

Het klinkt misschien eenvoudig om een technologie aan te leren hoe het een vijftal verschillende getallen moet herkennen, maar in de praktijk komt hier een hoop bij kijken. Iedere mens is immers uniek en dat heeft zijn weerslag op de manier waarop we spreken en hoe onze stem klinkt. Een vrouw heeft doorgaans een hogere stem dan een man en aan de Belgische kust heeft men een andere uitspraak dan in Nederlands Limburg. Voeg hier verschillende spraaksnelheden en achtergrondgeluid aan toe, en je merkt dat het herkennen van enkele woorden niet zo vanzelfsprekend is als het op het eerste zicht lijkt.

Harpy

Echte grote stappen in spraakherkenningssoftware werden dan ook pas in de jaren 70 gemaakt, toen het Amerikaanse Ministerie van Defensie de technologie onder handen nam. Het DARPA Speech Understanding Research-programma liep van 1971 tot 1976 en ontwikkelde onder andere het ‘Harpy’-systeem. Harpy begreep 1.011 woorden; de gemiddelde vocabulaire van een driejarige. Desalniettemin was Harpy een belangrijke vooruitgang. De technologie introduceerde immers een efficiënt zoekalgoritme, ‘beam search’ genaamd. Dat algoritme doorzocht een netwerk met een eindig aantal mogelijke zinnen.

Dankzij nieuwe methodes om te begrijpen wat mensen zeggen, steeg het aantal woorden dat spraakherkenningssoftware begreep van enkele honderden naar duizenden. In plaats van templates te gebruiken voor woorden en op zoek te gaan naar geluidspatronen, werden voortaan statistische methodes gebruikt die de kans aangaven dat een geluid een woord is. Het aantal woorden dat software kon herkennen, werd eindeloos, waardoor de eerste commerciële toepassingen verschenen. Zo verscheen er in 1987 een pop die kinderen konden trainen om op hun stem te reageren.

Google

Pas in de jaren 90 verschenen de eerste programma’s die je kon gebruiken om met je stem te typen. Dragon Dictate werd al in 1990 gelanceerd en zeven jaar later kon je de betere versie, Dragon NaturallySpeaking, aanschaffen. Deze applicatie begreep continue spraak, waardoor je zo’n honderd woorden per minuten kon uitspreken. Dat was een grote vooruitgang met voorgaande software, aangezien je toen na ieder woord moest pauzeren.

In 2001 herkende spraakherkenningssoftware 80 procent van de woorden die je zei, wat nog steeds te weinig was om van de technologie een succes te maken. Onder andere Google werkt er daarom hard aan om data van zijn gebruikers te verzamelen die ingezet kan worden om de software te verbeteren. De ‘OK Google’-functie op je smartphone kon bij de lancering in 2010 teren op een database van 230 miljard gesproken Engelse woorden.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

Dorien Vervoort

Dorien heeft een achtergrond als programmeur en is bijzonder geïnteresseerd in robotica en biomedische technologie. Al draait ze haar hand ook niet om voor bredere thema’s als security en internet of things.