Algoritmen slaan de bal grondig mis met WK-voorspellingen
Voorspellingen deugen allerminst
Onze geliefde algoritmen voorspelden namelijk een nek-aan-nek race tussen topfavorieten Duitsland, Spanje en Brazilië. Die laatste werd afgelopen vrijdag uit het speelschema geschopt door klein maar dapper België. Ook Spanje moest het onderspit delven, en dan nog wel tegen een very unlikely suspect Rusland. En verrassing van het tornooi was toen Duitsland tegen alle verwachtingen in wel heel vroeg de aftocht moest blazen.
Vandaag staan we voor de halve finales en zijn de volgende landen gekwalificeerd; Frankrijk, België, Engeland en Kroatië. Frankrijk en België nemen het morgenavond om 20u tegen elkaar op, Engeland en Kroatië spelen een dag nadien om de finaleplaats.
Andreas Groll van de Technische Universiteit van Dortmund had echter een kortere weg naar al die WK-wedstrijden ontwikkeld, namelijk een algoritme dat naar eigen zeggen de uitslagen van de wereldbeker zou voorspellen. Daarmee volgde hij in de voetsporen van Paul, the psychic octopus, die in 2010 nog voorspelde dat Spanje wereldkampioen zou worden.
Hij oogstte daarmee echter niet evenveel succes als Paul. De helderziende octopus voorspelde in 2010 nog dat Spanje wereldkampioen zou worden, een voorspelling die vreemd genoeg nog eens uitkwam ook.
Random forest
Volgens de bookmakers kwam Brazilië aan het begin van het WK duidelijk naar voren als de gedoodverfde winnaar met een waarschijnlijkheidspercentage van 16,6 %. Daar staken de Rode Duivels zoals vermeld vrijdagavond nog een stokje voor, waarmee ze de voorspellingen van de bookmakers overhoop haalden. Het Zuid-Amerikaanse land werd gevolgd door Duitsland (12,8 %) en Spanje (12,5%).
Groll gooide het echter over een andere boeg en maakt voor zijn WK-voorspelling gebruik van de ‘random forest-aanpak’, een combinatie van machine learning en conventionele statistiek. Groll en zijn teamgenoten baseerden hun voorspellingen op een aantal factoren die mogelijk van tel zouden kunnen zijn voor de WK-uitslag.
Zo worden bijvoorbeeld economische en demografische factoren in rekening gebracht zoals het bruto nationaal product van een land of de bevolking van een land. Ook de officiële FIFA-ranking van nationale teams werd niet ontzien, evenals de kenmerken van die teams; hoe oud de gemiddelde speler is, het aantal Champions League spelers dat een elftal bezit en of een nationaal team met thuisvoordeel speelt.
Groll en kompanen simuleerden het WK een 10.000 keer. Daaruit kwam de volgende vaststelling: indien Duitsland de kwartfinales haalt, maken zij het meeste kans op de wereldbeker. Echter, als ze de kwartfinales niet halen, dan wordt Spanje net als in 2010 WK-kampioen. Groll zat er met zijn voorspellingen flink naast. Duitsland heeft dan misschien de kwartfinale niet gehaald, maar Spanje slaagde daar ook niet in.
Je bent wat je eet
Omdat voorspellingen met algoritmen ook altijd gebaseerd zijn op de data die je ze voedt, genereren ze bij sommige amateur-bookmakers wel al eens andere resultaten. Zo baseerde de blogger Gerald Muriuki van GoodAudience zich op historische data sinds 1930 voor het ontwerpen van zijn algoritmen.
Aan de hand van voorgaande uitslagen wordt zo de waarschijnlijkheidsgraad voorspeld dat een bepaald elftal wint. Aan de hand van de algoritmen van Muriuki, zou Brazilië de nieuwe wereldkampioen worden. Dat mocht niet zijn, aangezien ze in de kwartfinales al door België verschalkt werden.
The bank takes it all
Vier internationale banken maakten voor hun analyse gebruik van kunstmatige intelligentie, statistische modellen, portfoliotheorie en economische analyse. Hun resultaten verschilden onderling danig.
Zo maakte de Zwitserse bank UBS gebruik van statistische modellering en voorspelde ze dat Duitsland de winnaar zou worden, terwijl Goldman Sachs dacht dat de overwinning voor Brazilië zou zijn. (Dat voorspelde GS nu overigens al de laatste 3 wereldkampioenschappen.)
Goldman Sachs baseerde haar algoritmen dit jaar op teamkenmerken, individuele spelers en recente prestaties. De Nederlandse bank ING zet dan weer in op Spanje en baseert zich daarbij op de marktwaarde van het team.
De Japanse bank Nomura laat daarentegen het midden tussen Frankrijk en Spanje. Nomura keek voor haar voorspelling naar factoren zoals de kwaliteit van de spelers, het momentum van de teamprestaties en voorgaande overwinningen.
Nomura lijkt dan nog het dichtste bij de mogelijke overwinnaar te zitten. Al hoop ik stiekem toch dat België wint.