Facebook

De "poker face" van artificiële intelligentie: computer verslaat vijf beste pokerspelers ter wereld tegelijk

Een "bovenmenselijke" pokerkampioen, dat is Pluribus, een zelflerend computerprogramma dat erin geslaagd is om vijf van de beste pokerspelers ter wereld tegelijk te verslaan. Een mijlpaal in de ontwikkeling van artificiële intelligentie, zegt mede-ontwikkelaar Facebook. Poker is niet makkelijk voor zelflerende computers omdat er sprake is van verborgen informatie en van bluffen. Maar zelfs dat heeft Pluribus onder de knie.

Zelflerende supercomputers slagen er al langer in om mensen af te troeven in intelligentiespelletjes waar tactiek en inzicht van kapitaal belang zijn. Herinner je je nog Deep Blue van het Amerikaanse computerbedrijf IBM , die in 1997 wereldkampioen Garry Kasparov versloeg met schaken. En drie jaar geleden klopte AlphaGo van de Amerikaanse techgigant Google achtvoudig wereldkampioen Lee Se-dol in het aartsmoeilijke Aziatische bordspel Go.

En nu is er Pluribus, ontwikkeld door het socialenetwerkbedrijf Facebook en Carnegie Mellon University in Pittsburgh. Die is er in een 12 dagen durend pokertornooi in geslaagd om vijf van de beste professionele pokerspelers ter wereld tegelijk te verslaan. Noam Brown, hoofdontwikkelaar bij het Artificial Intelligence-team van Facebook, noemt de prestatie van Pluribus zonder aarzelen "superhuman", bovenmenselijk.

Tot nog toe was geen enkel zelflerend computerprogramma erin geslaagd om meerdere pokerspelers tegelijk af te troeven. Twee jaar geleden kon voorganger Liberatus al menselijke pokerspelers verslaan, maar dat was telkens in individuele spellen, computer versus één speler dus, en niet in zogenoemde multiple player-spellen.

Pluribus klopte vijf professionele spelers in een zogenoemde no-limit Texas hold'em, de meest gespeelde variant van poker ter wereld. Het gaat niet om de minsten: elk van de spelers won tot hier toe al meer dan 1 miljoen dollar op internationale tornooien. onder meer in de befaamde World Series of Poker, het grootste pokerevenement ter wereld.  

Weinig computervermogen"

Een verlies voor de mensheid, een opsteker voor artificiële intelligentie. Poker was tot nog toe een grote uitdaging omdat er elementen in zitten die niet bij spelletjes als schaken en go voorkomen. Verborgen informatie bijvoorbeeld, de kaarten van andere spelers zijn niet bekend. En vooral de strategie van het bluffen,  doen alsof je andere (betere of slechtere) kaarten in handen hebt en zo je tegenstanders in de val lokken.

Dat maakt het ontwikkelen van zelflerende pokertechnologie erg lastig. Facebook en Carnegie Mellon University creërden eerst een programma waarin ze alle basisregels van het spel invoerden. Daarna lieten ze het computermodel "een triljoen keer" tegen zichzelf inzetten. In het begin was het vooral willekeur, maar Pluribus leerde snel bij. Na acht dagen had Pluribus een blauwdruk waarmee het zijn inzet bij de eerste ronde van het spel bepaalde. Voor volgende rondes werkte het zijn strategie telkens bij.   

Volgens Facebook-ontwikkelaar Noam Brown is het opvallend hoe weinig computervermogen er nodig was om Pluribus te trainen en te laten spelen. Pluribus draait op twee Intel Haswell-processors en verbruikt een bescheiden 128GB tijdens een spel. Het computervermogen verminderen is cruciaal voor de verdere ontwikkeling van artificiële intelligentie.

Als Pluribus bluft, ziet het dat niet als misleiding of bedrog, maar gewoon als de manier om het meeste geld te kunnen winnen.

Noam Brown

"Bluffen is eigenlijk wiskunde"

Pluribus leek ook geen enkele moeite te hebben met het blufgedrag van zijn tegenspelers te doorgronden. En om zelf te bluffen.  "We beschouwen bluffen als een menselijke eigenschap", zegt Noam Brown. "Maar wat we zien is dat bluffen eigenlijk mathematisch gedrag is, wiskunde. Als Pluribus bluft, ziet het dat niet als misleiding of bedrog, maar gewoon als een manier om het meeste geld te kunnen winnen."

Dat Pluribus erin slaagt om meerdere mensen tegelijk te verslaan, is een doorbraak voor de ontwikkeling van artificiële intelligentie. En bruikbaar in de échte wereld: in heel wat situaties waar artificiële intelligentie een rol kan spelen, is niet alle informatie bekend en zijn er "meerdere spelers". Zo zou de technologie achter Pluribus gebruikt kunnen worden in bijvoorbeeld de preventie van fraude, cybersecurity en de strijd tegen online extremisme.

Facebook is niet van plan om Pluribus te gaan laten meespelen op echte pokertornooien. De computercode wordt zelfs niet bekendgemaakt. Wetenschappers zullen wel bepaalde delen ervan kunnen inkijken.

Meer lezen?

Meest gelezen