15 juli 2019 10:33

A.I. bluft beter in Texas Hold’em poker dan menselijke tegenstander

Amerikaanse onderzoekers zijn er in geslaagd een A.I.-bot te laten winnen van 6 professionele menselijke pokerspelers.

Artificiële intelligentie wordt er jaarlijks beter op. Ingenieurs en ontwikkelaars slagen er elke keer in om de technologie beter in te zetten.

De laatste jaren werd A.I. al gebruikt bij wedstrijden dammen, schaken en Go. Die laatste werd al geherlanceerd door Google via zijn AlphaGo-programma. Het bedrijf sloeg er in de toenmalige Europees kampioen van Go te verslaan met zijn softwaremodel, ook gebaseerd op A.I.

Gewoon goed of toeval?

De rol van A.I. in een pokerspel werd altijd als onmogelijk geacht. In poker hangt succes niet enkel af van kennis of strategie maar ook van emotie en of je als speler goed kan bluffen. Vooral die laatste maakt het ondenkbaar om daar een computer bij in te schakelen. Een computer blijft immers een rationeel brein dat op voorhand wordt ingesteld.

Een tweede probleem bij poker is dat je geen overzicht hebt, je ziet enkel je eigen kaarten en wat erop tafel ligt. Dat is een groot verschil tegenover andere spellen waarbij je veel meer informatie hebt over je tegenspeler zoals bij schaken of dammen.

Nash-evenwicht

Je zou een A.I.-model in doorgaans gemakkelijke spelletjes kunnen inzetten zoals blad-steen-schaar. In dat geval zoek je naar een Nash-evenwicht waarbij je moet inschatten wat de strategie van je tegenspeler is. Stel dat je tegenspeler systematisch voor ‘steen’ kiest, kan je het A.I.-model leren om dat op te sporen en voor ‘blad’ te kiezen. Zo kan je de zwakte van je tegenspeler uitbuiten. Echter is dat voor een A.I.-model nog redelijk gemakkelijk aan te leren.

Bij poker gaat het om een complexer verhaal. De truc is om onvoorspelbaar uit de hoek te komen en in te schatten welke beslissingen je tegenstanders zullen maken. De Finse wetenschapper, Tuaomas Sandholm en zijn docoraatsstudent Noam Brown, sloegen erin om een A.I.-bot in te zetten in het pokerspel.

Libratus

Sandholm werkt voor Carnegie Mellon, een vooraanstaande universiteit in Pittsburgh die aan de wereldtop staat op vlak van artificiële intelligentie. Twee jaar aan een stuk bouwden de twee aan hun bot die Libratus heet. Libratus sloeg erin om vier professionele spelers individueel te verslaan in Texas Hold’em. Het was voor de bot nog niet mogelijk om het gehele spelletje te winnen. Wanneer er meerdere spelers bijkwamen werd het spel te complex voor Libratus. Echter kon deze gedeeltelijke overwinning het duo niet tegenhouden.

Pluribus

Dus ging de heren weer aan de slag en bouwden ze Pluribus. Pluribus is een uitgebreide en verbeterde versie van zijn voorganger Libratus. Pluribus werd acht dagen lang onderworpen aan spelletjes met kopieën van zichzelf. De bot werd dus niet op voorhand ingelicht over de manier waarop mensen poker spelen. Die methode heeft als voordeel dat de bot op voorhand geen tunnel-visie meekrijgt waardoor hij breder en dieper kan aanleren. In het begin van het spel verliest Pluribus vaak maar naarmate het spel vordert wordt de A.I.-bot beter. Tot hij uiteindelijk van alle tegenspelers wint.

“De code van Pluribus wordt niet vrijgegeven om misbruik te voorkomen.”

De twee onderzoekers zijn er niet alleen in geslaagd de bot te laten winnen, maar deden dat ook op een heel goedkope manier. Zo had de bot geen GPU’s en had het amper 512 GB RAM-geheugen met 150 euro aan cloud-servers nodig. Een stevig contrast met de miljoenen euro’s die vaak worden uitgegeven aan gelijkaardige projecten.

Misbruik

In hun blog stellen de onderzoekers dat ze na overleg de code achter Pluribus niet zullen vrijgeven omdat het een potentieel gevaar voor de poker-community kan zijn. Misbruik van deze code kan zorgen voor oplichting en fraude in het spel.

De onderzoekers benadrukken ook dat hun ontdekking ook impact kan hebben op politiek, cybersecurity of zelfs verkeersnavigatie.