30 maart 2016 15:43

Googles AlphaGo-computer leert zichzelf pokeren en wereldproblemen oplossen

AlphaGo, de supperslimme artificiële intelligentie van Google Deepmind, toverde zichzelf om tot poker-expert. Dat maakt het systeem potentieel geschikt om belangrijke praktische problemen op te lossen.

AlphaGo versloeg begin deze maand wereldkampioen Lee Sedol in het spelletje Go. Go, waarin meer combinaties mogelijk zijn dan er atomen in het universum bestaan, kan in tegenstelling tot schaken niet met brute kracht gewonnen worden. De prestatie van AlphaGo was dan ook een belangrijke primeur in het onderzoek naar artificiële intelligentie.

Nieuwe uitdaging

Met de overwinning op zak zochten Deepmind en AlphaGo naar een nieuwe uitdaging. Poker lijkt hoog op het verlanglijstje te staan. Een paper van twee UCL-onderzoekers suggereert poker als een goede kandidaat. In de paper doen Johannes Heinrich en David Silver uit de doeken hoe ze een AI in staat stelden om het spel zelf te leren, met groot succes.

[related_article id=”178432″]

Poker is een goede simulatie van echte strategische scenario’s op grote schaal. Om een pokerspel te winnen volstaat het niet om de eigen hand te kennen, een speler moet ook rekening houden met het gedrag en de acties van anderen om zo zonder alle benodigde informatie een zo goed mogelijke beslissing te nemen. Texas Hold’m-poker, momenteel de meest populaire variant van het spel, is in dat opzicht een voorbeeld van game theory. Game theory wordt gebruikt om op een mathematische manier alles van economie en politiek tot psychologie en de opwarming van de aarde te bestuderen.

Slimme leertechnieken

De onderzoekers focusten op twee soorten poker: naast Texas Hold’m keken ze naar Leduc, wat een vereenvoudigde variant is waarin slechts zes kaarten aan bod komen. De AI gebruikte twee technieken om zich de spellen meester te maken die samen onder de noemer Deep Reinfocement Learning vallen. Deep Reinforcement Learning werd ook gebruikt door Google Deepmind om AlphaGo tot wereldkampioen Go te vormen.

Neurale netwerken en versterkend leren zijn de twee bouwstenen van de techniek. Neurale netwerken worden al gebruikt in de verwerking van grote hoeveelheden data of om computers abstractere kennis aan te leren. Denk daarbij aan beeldherkenning. Een neuraal netwerk kan zichzelf trainen om beter te worden na de evaluatie van eerdere resultaten maar de techniek volstaat niet wanneer een groot deel van de nodige informatie zoals bij poker ontbreekt. Met versterkend leren krijgt een AI de gave om uit zijn fouten te leren.

Individueel verbeteren

Concreet wil dat zeggen dat de computer poker kan spelen tegen zichzelf totdat de onderliggende algoritmes genoeg verfijnd zijn om het systeem succesvol te maken tegen menselijke tegenstanders. In het geval van Leduc-poker loste de AI het spel virtueel op. Het computersysteem benaderde het Nash-evenwicht, wat een optimale speelstijl weerspiegelt.

[related_article id=”160903″]

Texas Hold’m is veel moeilijker en dus waren de resultaten minder spectaculair. Het systeem trainde zich desalniettemin tot het niveau van een expert-speler. Er bestaan al louter mathematische manieren om poker te spelen waarin een computer in essentie aan kansberekening doet rekening houdend met de factoren die gekend zijn. Deepmind kan net zo goed pokeren als die systemen en houdt bovendien rekening met het gedrag van andere spelers. Het indrukwekkendste van heel het onderzoek is dat niemand de computer geprogrammeerd heeft om optimaal te pokeren, het systeem vertrok van vrijwel geen kennis van poker en toverde zichzelf om tot expert.

Relevant op wereldschaal

Verder onderzoek zou de AI kunnen omtoveren tot wereldkampioen. The Guardian merkt op dat dergelijk onderzoek zichzelf kan betalen zolang er mensen zijn die de uitdaging willen aangaan. De ontwikkeling heeft echter een impact die veel groter is dan poker. Veel scenario’s in de wereld zijn terug te brengen naar situaties met meerdere actoren waarin niemand alle informatie bezit. Dat de computer in heel snelle tijd poker machtig werd, doet de onderzoekers denken dat hun systeem ook voor andere meer praktische scenario’s optimale beslissingen kan bedenken. Het feit dat het systeem tegen zichzelf kan oefenen en toch uit z’n fouten kan leren, speelt daarbij een belangrijke rol.

Het valt tevens op dat nieuwe artificiële intelligenties steeds minder gericht zijn op één taak. Waar Deep Blue nog ontwikkeld werd om te schaken, lijkt de creatie van DeepMind zichzelf een heleboek truukjes te kunnen aanleren. De spitsvondigheid zit dus niet noodzakelijk in de manier waarop de AI een spel speelt, maar in de methode waarop het systeem zichzelf iets nieuw met grote nauwkeurigheid kan aanleren.