19 oktober 2017 12:38

Nieuwe AI verplettert AlphaGo na drie dagen oefenen

Dankzij enkele verbeteringen in de software ontwikkelde Google Deepmind een griezelig krachtige nieuwe versie van AlphaGo die zijn voorganger compleet inmaakt in bordspel Go.

Google Deepmind maakte vorig jaar furore met zijn artificiële intelligentie AlphaGo: in een veelbesproken tournooi wist de software een van de beste Go-spelers ter wereld te verslaan met 4 tegen 1. Het markeerde een belangrijke vooruitgang in de ontwikkeling van AI. Ondertussen heeft het bedrijf alweer een nieuwe versie van het Go-spelende algoritme klaar, en eentje die nog veel meer indruk maakt. Op drie dagen tijd leerde AlphaGo Zero zichzelf alle kneepjes van het bordspel aan versloeg het zijn voorganger met 100 overwinningen tegenover nul.

Zelfstudie

Deepminds prestaties met AlphaGo Zero worden uit de doeken gedaan in een artikel in Nature. Er zijn enkele belangrijke verschillen tussen Zero en de vorige versies van de AI. Eerdere iteraties van het algoritme werden getraind in het spel door duizenden matchen tussen menselijke spelers te analyseren. Zo niet met AlphaGo Zero: de onderzoekers gaven het algoritme enkel de basisregels van het bordspel mee. Op basis van die kennis leerde het algoritme zichzelf het spel aan. Na drie dagen oefenen was de AI al slim genoeg om zijn voorganger AlphaGo Lee te verpletteren. Na 40 dagen van zelfstudie kon Zero AlphaGo Master inmaken, de versie die wereldkampioen Ke Jie klopte dit jaar.

Leren van de sterkste

Google Deepmind maakt bij de programmering van Zero gebruik van een nieuw type van ‘reinforcement learning‘. Door zichzelf stap voor stap de regels aan te leren in plaats van opgenomen matchen te bekijken, leert het algoritme sneller en is het ook slimmer. Het neuraal netwerk speelt gewoon spelletjes tegen zichzelf, en verbetert zich beetje bij beetje door nieuwe strategieën uit te denken. “Deze techniek is krachtiger dan vorige versies van AlphaGo omdat het niet langer beperkt wordt door de limieten van menselijke kennis. In de plaats daarvan kan het tabula rasa leren van de beste speler in de wereld: AlphaGo zelf,” aldus Google Deepmind.

AlphaGo Zero is niet alleen sneller, het Deepmind-team heeft door de jaren heen ook grote vooruitgang geboekt op het vlak van efficiëntie. AlphaGo Fan, een van de eerste iteraties van het algoritme, werd aangedreven door 176 GPU’s. Recente versies van AlphaGo nemen al genoegen met 4 TPU’s. Die Tensor Processing Units zijn speciaal ontworpen door Google om machine learning te optimaliseren.

Probleemoplosser

Go is niet het enige spel waar Google Deepmind zich op toelegt, het stuurde zijn algoritme ook al op poker en videogames af. Die projecten zijn er niet alleen om te tonen dat artificiële intelligentie de mens kan afdrogen in allerlei spelletjes. Het ultieme doel is om de AI op serieuze problemen los te laten. AlphaGo Zero is een belangrijk stap naar dat doel. “Het feit dat we zien dat een programma en erg hoog prestatieniveau kan halen in een domein zo gecompliceerd en uitdagend als Go, moet betekenen dat we nu kunnen starten met het aanpakken van enkele van de meest uitdagende en belangrijke problemen van de mensheid,” stelt Deepminds hoofdonderzoeker David Silver.

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai alphago google deepmind

Nina van Hoof

Nina’s internetleven draait op Windows en Android, haar muziek op een iPod en Spotify. Ze selecteert elke dag het nieuws dat je moet gelezen hebben en schrikt er niet voor terug om ook de zakelijke kant van IT te belichten.