20 februari 2017 15:56

Wat we kunnen leren van Googles moordzuchtige AI’s

Googles DeepMind-divisie draaide twee virtuele experimenten met kunstmatige intelligentie en ontdekte dat een AI net als een mens de neiging heeft agressief te worden bij schaarste.

Als we iets te weinig hebben, dan zijn we bereid het af te pakken van een medemens. Jij of ik doen dat misschien niet persoonlijk maar doorheen de geschiedenis is schaarste van belangrijke goederen een uitstekende motivatie voor het ontketenen van een oorlog. Eigenlijk is dat opvallend, aangezien de mens in wezen een sociaal dier is.

Samenwerking of moord

Onderzoekers van Google Deepmind ontdekten dat kunstmatige intelligentie, net als mensen, het potentieel heeft om samen te werken maar ook om agressief te worden. DeepMind is Googles AI-divisie en het brein achter onder andere het AlphaGo-algoritme dat vorig jaar de wereldtitel voor het gelijknamige spelletje van een menselijke tegenstander wegkaapte.

Deepmind bouwde twee neurale netwerken en stopte ze in twee verschillende virtuele scenario’s. In het eerste virtuele scenario moesten de AI’s virtueel fruit plukken om te overleven. Ze moesten zich over een rooster naar het fruit (een groene pixel) begeven om het te plukken waarna het voor enige tijd van het spelbord verdween. De AI die zijn doel eerst bereikte, ging dus met de buit aan de haal.

Delen

In principe konden beide AI’s de buit gewoon verdelen en om de beurten fruit plukken. De onderzoekers gaven de neurale netwerken echter de mogelijkheid om een soort laserstraal af te vuren. Na twee rake schoten verdween een tegenstander even uit het spel. De laserstraal afvuren kostte tijd, maar maakte het ook moeilijker voor de concurrent om zijn doel te bereiken. De onderzoekers konden vervolgens spelen met de groeisnelheid van het fruit.

Beide intelligenties speelden het spel duizenden keren en kregen zo de kans zelf strategieën te ontwikkelen. Met genoeg fruit in het speelveld, leefden de AI’s vredig naast elkaar. Zodra de groene pixels ietwat schaars werden, kozen beide neurale netwerken automatisch voor de agressieve aanpak en probeerden ze elkaar voortdurend te fnuiken met hun laserstraal. Het valt op hoe beide neurale netwerken, gedreven door primitieve instincten die erg vergelijkbaar zijn bij wat je in de natuur tegen komt, voor eigen winst kiezen ten nadele van een concurrent.

Slimmer is agressiever

Deepmind liet neurale netwerken van verschillende complexiteit het spel spelen. Hoe complexer het neurale netwerk (hoe ‘slimmer’), hoe agressiever het gedrag. Het viel de Deepmind-onderzoekers op dat de hogere capaciteiten van een complexer neuraal netwerk steevast leidde tot geavanceerdere en agressievere strategieën.

Het omgekeerde is gelukkig ook mogelijk. In een tweede test stuurden de Deepmind-onderzoekers hun neurale netwerken op jacht naar een virtuele prooi. Iedere individuele AI kon de prooi doden, maar zonder hulp bestond er het risico dat een aasgier met de vangst ging lopen. Zolang beide AI’s binnen een beperkte afstand van elkaar bleven, liepen ze dat risico niet. Bovendien kreeg iedere deelnemer punten bij het vangen van één prooi.

Samen sterk

Al snel leerden de neurale netwerken samenwerken. Twee strategieën kregen de bovenhand. Ofwel zochten de AI’s elkaar op om samen op jacht te gaan, ofwel bleef de AI die de prooi eerst lokaliseerde wachten op versterking. Pas wanneer de tweede AI dicht genoeg was, ging de eerste tot de aanval over. Ook in dit scenario waren de capaciteiten van de neurale netwerken van belang. Hoe slimmer de AI, hoe meer de strategie voor het vangen van de prooi naar samenwerking verschoof.

Sociale dilemma’s

De DeepMind-onderzoekers zien hun experimenten als een nieuwe manier om sociale dilemma’s te onderzoeken. Ze geven daarbij het voorbeeld van het dilemma van de gevangenen. In dat bekende vraagstuk worden twee verdachten gelijktijdig maar afzonderlijk ondervraagt. Bekent geen van hen, dan is er onvoldoende bewijs voor een volledige veroordeling en kijken ze beiden aan tegen een gevangenisstraf van één jaar. Bekent één van hen wel, dan gaat de ‘verrader’ vrijuit, terwijl de andere verdachte drie jaar de gevangenis ingaat. Wanneer beiden bekennen, krijgen ze allebei twee jaar cel. Het rationele antwoord op de vraag: ‘wat moet je doen’ is samenwerken met de politie. Zo vermijd je drie jaar cel. In de praktijk vlieg je wel voor twee jaar de gevangenis in, terwijl het ook mogelijk is om de straf te beperken tot één jaar wanneer beide verdachten stil zouden blijven.

AI als voorspeller van menselijk gedrag

DeepMind hoopt met de hulp van AI nieuw licht te werpen op dergelijke vraagstukken en bijhorende motivaties. In de toekomst willen de onderzoekers hun neurale netwerken gebruiken om simulaties van complexe problemen te maken. De dillema’s zijn immers niet louter theoretisch: ze zijn ook van toepassing op complexe systemen zoals de economie of menselijk gedrag waarbij winst op korte termijn moet afgewogen worden tegen voordelen op lange termijn, zoals bijvoorbeeld in de keuze van een nieuwe wagen rekening houdend met de realiteit van de opwarming van de aarde.

In een verder stadium van het onderzoek zullen de neurale netwerken dus geen appels plukken of pixels vangen, maar de basis voor complexer onderzoek is daarmee wel gelegd. AI kan zo helpen te voorspellen of individuen geneigd zijn om samen te werken voor de oplossing van een probleem, of eerder elkaar aan te vallen in de zoektocht naar winst op korte termijn.