Meest recent

    Deepmind

    Computer almaar slimmer dan mens:  AlphaGo Zero krijgt go in amper drie dagen onder de knie

    AlphaGo Zero, een ontwikkeling van Google-afdeling Deepmind, is erin geslaagd om in amper drie dagen tijd het aartsmoeilijke Aziatische bordspel go onder de knie te krijgen, helemaal uit zichzelf, zonder enige menselijke input of voorkennis. Mensen hebben jaren en jaren nodig om zich de finesses van het spel eigen te maken.

    Go is een eeuwenoud Aziatisch strategisch bordspel, vooral populair in China, Japan en Korea. Het heeft wat weg van dammen, al is het tactisch véél moeilijker. Twee spelers moeten zwarte of witte stenen op een bord leggen, bedoeling is om het meeste terrein te veroveren door lege plaatsen te omsingelen. Het bord is 19 op 19 lijnen groot, er zijn dus 361 "kruispunten". Het aantal mogelijke bordopstellingen is haast eindeloos, zelfs voor een computer was het onmogelijk om die enkel en alleen op rekenkracht uit te rekenen.

    Vorig jaar kwam Deepmind, een afdeling van Google, in het nieuws met een zelflerend computerprogramma gebaseerd op artificiële intelligentie, AlphaGo. Het slaagde erin om achtvoudig go-wereldkampioen Lee Se-dol te verslaan in een vijf spelletjes tellende krachtmeting. AlphaGo won er vier. De verwachting was dat het jaren zou duren vooraleer een zelflerend computerprogramma de mens kon verslaan bij go, maar de winst kwam er veel sneller dan verwacht.

    Het was een mijlpaal in de ontwikkeling van de zelflerende machine.

    AlphaGo Zero: "zoek het zelf maar uit"

    AlphaGo stuurde via een zogenoemd neuraal netwerk (een simulatie van het neuronennetwerk in de hersenen) de computer in het uitkiezen van beloftevolle zetten en de varianten ervan dan door te rekenen. AlphaGo leerde zichzelf om beter go te spelen en de wereldkampioen te verslaan, maar daarvoor was nog een menselijke component nodig: het invoeren van duizenden partijen tussen profspelers.

    Intussen is AlphaGo "met pensioen" en begon Deepmind aan een opvolger: AlphaGo Zero. Het nieuwe programma kreeg alléén de basis van go mee: het bord, de stenen,  de spelregels. Van enige menselijke "voorkennis" of input van profspelers was geen sprake. AlphaGo Zero moest alles verder zelf maar zien uit te vissen door te spelen tegen zichzelf en te leren uit zijn eigen fouten en overwinningen.

    Met dat doel lieten de ontwikkelaars AlphaGo Zero spelen tegen AlphaGo. Het resultaat was op zijn zachtst gezegd verbluffend. In amper 3 dagen slaagde het er al in om AlphaGo te verslaan met 100 tegen 0. Van een verpletterende overwinning gesproken.  

    "Technieken en tactieken die ik nog nooit gezien heb"

    Bij AlphaGo duurde het maanden vooraleer het in staat was het te halen van een wereldkampioen, bij AlphaGo Zero slechts enkele dagen. Volgens Deepmind komt dat allicht doordat AlphaGo Zero niet geremd wordt door menselijke data. Het programma werkt daardoor veel zuiniger en leert bij, puur vanuit de basisprincipes van het spel.

    Vooral in het middengedeelte van het spel heeft het "onconventionele zetten en creatieve zetten" gevonden. Een professionele go-speler die Deepmind adviseerde, verklaart dat AlphaGo Zero technieken en tactieken ontwikkelde die hijzelf nog nooit gezien heeft.

    "De keuzes die AlphaGo Zero maakte in de begin- en eindzetten van het spel, zijn van hetzelfde niveau als de beste keuzes die professionele go-spelers al hebben gemaakt," zegt ook de Amerikaanse go-vereniging. "Maar vooral de zetten in het midden zijn van zo'n hoog niveau dat je het gevoel hebt een ongemeen sterke menselijke speler aan het werk ziet in plaats van een computer."

    Moeten mensen bang zijn?

    Volgens Deepmind- en AlphaGo Zero-expert David Silver toont het resultaat van AlphaGo Zero aan dat het ontwikkelen van nieuwe algoritmes veel belangrijker is dan het uitbreiden van computerkracht of het gebruiken van bestaande data om van te leren. "We hebben de beperkingen van het menselijke brein weggehaald, waardoor het programma in staat is om zelf kennis te verwerven van een leeg blad", zegt hij aan BBC.

    Demis Hassabis, directeur bij Deepmind, hoopt dat de kennis die AlphaGo Zero heeft opgeleverd, kan helpen bij het ontwikkelen van artificiële intelligentie die de grenzen van wetenschap kan aftasten. "Ik hoop dat zelflerende algoritmes zoals AlphaGo Zero in de toekomst met ons als expert kan samenwerken, bij ontwikkelen van nieuwe geneesmiddelen bijvoorbeeld", zegt hij aan BBC.

    Is het iets waar mensen bevreesd voor moeten zijn, het feit dat een computerprogramma in drie dagen iets onder de knie kan krijgen waar wij zelf jaren en jaren voor nodig hebben? Volgens Hassabis is dat niet nodig. Go is een spel met duidelijke regels en zonder elementen als "geluk" of "toeval". "We zijn nog een heel eind verwijderd van artificiële intelligentie die daarmee rekening zou kunnen houden."

    Meer lezen?