Taalkunde voor computers: rekenen met woorden
Woordvelden, onderlinge relaties tussen woorden, woordklassen,… Menig taalkundige heeft zich in de loop der jaren gericht op taalkunde, woorden, en de onderlinge verbanden. Ferdinand de Saussure, Jost Trier, Adrienne Lehrer: allemaal onderzochten zij wat de betekenissen van woorden inhouden, wat die betekenis tot stand deed komen en hoe we woorden kunnen onderscheiden van andere woorden. Dankzij de ‘computationele linguïstiek’ kunnen we het onderscheid tussen betekenissen nu ook bekijken vanuit een wiskundiger opzicht. Om de impact hiervan ten volle te kunnen beseffen, reiken we eerst wat achtergrond aan.
Woordbetekenis
De Saussure boog zich over het vraagstuk over woordbetekenissen: wat zijn ze en hoe komen ze tot stand? Hij kwam met het structuralistische antwoord op de proppen. Wat maakt immers dat we een hond kunnen benoemen als zijnde een hond? Als we een kat zien lopen, weten we dat het geen hond is, ook al beschikken ze beiden over een staart, vier poten enzovoort. Je kan dan zeggen ‘dat is gewoon zo’, als een soort etiket dat de mens op zijn omgeving heeft geplakt. Signifiant en signifié vullen elkaar hier aan; kort door de bocht kunnen we dit vorm en inhoud noemen.
Volgens De Saussure zit essentie van een woord in een mist waar taal de grenzen in bepaalt. Door deze grenzen kunnen we dan bijvoorbeeld een stoel van een zetel onderscheiden. Deze mist bemiddelt tussen de vorm (bijvoorbeeld een hond) en de benaming die wij eraan geven (‘hond’). Onderstaand filmpje geeft op een leuke manier meer verduidelijking:
Het lijkt een beetje als de zoektocht naar de oorsprong bij de gekende vraag: de kip of het ei? In het geval van de taal luidt het antwoord hoogstwaarschijnlijk: ze zijn tegelijk ontstaan. Zoals het filmpje het zo mooi stelt: om de ene kant van een blad te hebben, moet je de andere kant erbij nemen. Uiteraard is deze uitleg kort door de bocht, maar het is het idee dat telt.
Woordvelden
Jost Trier kwam met het volgende stukje van de puzzel: wanneer stopt het woord ‘zetel’ om over te gaan naar ‘stoel’? Wanneer kunnen we een zetel geen zetel meer noemen, ook al bezit het object waar we naar verwijzen enkele gemeenschappelijke kenmerken met een stoel? Om het onderscheid te kunnen maken, kwam hij met het idee van woordvelden. Een woord wordt gedefinieerd door wat het niet is. Op een stoel kan je bijvoorbeeld niet gaan liggen, op een zetel wel. Ook De Saussure was ervan overtuigd dat een woord gedefinieerd wordt puur op zijn relatie met andere ‘taaltekens’ (de fysieke vorm).
Na heel veel oplijstwerk, kom je zo aan een lijst met definiërende kenmerken van wat een object is, en wat het niet is. Dit noemen we de componentiële analyse. Doordat sommige kenmerken overlappen (een stoel en een zetel hebben bijvoorbeeld allebei vier poten), krijg je een soort van mozaïek waar het ene woord overgaat in het andere. Uiteindelijk kwam Trier tot een aantal ‘prototypes’: kenmerken waar een stoel minstens aan moet voldoen om een stoel te mogen heten. Hier zijn dan uitzonderingen op mogelijk (bijvoorbeeld met of zonder armleuning).
Computationele linguïstiek
Nu we de herkomst van betekenissen hebben bekeken, en keken hoe verschillen in betekenissen traditioneel werden benaderd, kunnen we overgaan naar hoe wetenschappers dit in wiskundige algoritmes probeerden te gieten. Geen sinecure, aangezien het om het aloude probleem van A.I. gaat: computers begrijpen niet, ze rekenen uit en gaan af op statistische gegevens.
Als je met een chatrobot op internet praat, begrijpt die niet wat je zegt, maar gaat hij de gebruikte woorden analyseren en opzoeken welke woorden als antwoord kunnen dienen. Het gaat hier dus puur om getallen. Aangezien computers almaar krachtiger worden, kunnen ze ook almaar meer berekeningen uitvoeren. Deze extra kracht zorgt ervoor dat woorden dusdanig geanalyseerd kunnen worden, dat de computers een steeds slimmere indruk kunnen geven.
Dit systematisch verwerken van woorden rekent uit hoe vaak een woord verschijnt ten opzichte van andere woorden. Het woord tafel gebruiken we bijvoorbeeld vaak in combinatie met een woord dat verwijst naar eten. Dit woord beschouwt men dan als een vector die het gebruik van het woord binnen een taal weergeeft.
Terwijl Trier en De Saussure dus op zoek gingen naar de oorsprong van betekenis en waarom die betekenissen kunnen verschillen, maakt deze methode er een wiskundige olympiade van. Wie bekend is met de reikwijdte van grammatica, weet dat taal kan gezien worden als een zin met enkele ‘slots’ waarin elk ‘slot’ kan gevuld worden door gelijkaardige woorden. Bijvoorbeeld: onderwerp + werkwoord + voorzetsel + object (ik hou van jou). Met de statistische aanpak wordt dit zo mogelijk nog meer het geval omdat het programma taal gaat bekijken als een wiskundig probleem met eindige oplossingen binnen de ruimte per vector.
Koning-man+vrouw=koningin
Timothy Baldwin van de Universiteit van Melbourne deden onderzoek naar deze zogenaamde ‘vector spaces’. Hij ging met zijn collega’s op zoek naar de mogelijkheden die ontstaan wanneer je een vector dusdanig aanpast dat er opeens een andere vector in de plaats kan komen. Bovenstaand voorbeeld geeft aan hoe krachtig een dergelijk programma kan zijn en hoe het de relatie tussen woorden kan onderzoeken.
Een ander voorbeeld is: Parijs – Frankrijk + Polen = Warschau. Hierbij leert het programma dus hoofdsteden herkennen en inwisselen. Baldwin en zijn collega’s proberen op basis van dergelijke voorbeelden uit te zoeken hoe betrouwbaar zo’n vergelijkingen zijn en kunnen worden.
Om de betrouwbaarheid te onderzoeken laten ze hetzelfde algoritme los op verschillende websites, zoals Google News en Wikipedia. Daarna gaan ze kijken hoe de relaties tussen woorden hier veranderen. Het team gaat echter nog verder en probeert de vectoren aan te passen naar grammaticale verbintenissen zoals werkwoorden, met tijden en vervoegingen, en enkelvoud en meervoud.
Ambigu
Ambiguïteit is niet alleen een probleem voor menselijke wetenschappers, ook computers kunnen zich er wel eens aan storen. Wat doe je namelijk met een woord dat meerdere betekenissen heeft? Het wordt zelfs nog erger wanneer een woord zowel als werkwoord kan dienen en als naamwoord. Neem bijvoorbeeld het Engelse ‘study’, of ‘studies’: een studie én studeren, vervat in één woord. Zo’n voorbeelden kunnen een corpus danig in de war sturen.
Artificiële intelligentie
De studie waar Baldwin mee bezig is, moet deze grenzen kunnen overstijgen. Het uiteindelijke doel is om een nieuwe dimensie toe te voegen aan ons begrip over woorden en woordrelaties. Wat wetenschappers in het begin van de 20ste eeuw niet konden, kunnen wij immers wel: supercomputers loslaten op het oerwoud aan gegevens dat je uit een statistische analyse van taal kan halen.
Dit nieuwe begrip kan dan hopelijk zijn bijdrage leveren aan een toekomstige A.I. en computers helpen om natuurlijke taal te begrijpen. Of minstens analyseren. Tegelijkertijd kan een toepassing van de bevindingen nieuwe soorten vertaalmachines stimuleren. Wie wordt Google Translate ooit nog echt slim?