Getraind met miljarden spellen
Om een strategospeler van wereldklasse te kunnen worden, speelde DeepNash 5,5 miljard potjes tegen zichzelf, waarbij de AI telkens nieuwe dingen leerde over het spel, de strategie en de weg naar de overwinning.
De AI heeft een beloningssysteem dat hem ertoe aanzet zijn spel voortdurend te optimaliseren, terwijl menselijke technici de spelalgoritmen voortdurend aanscherpen en verfijnen.
Daarnaast wordt de Stratego-AI aangestuurd door het speltheoretische concept Nash-evenwicht, wat kort gezegd betekent dat geen enkele speler van strategie verandert als hij daar niet onmiddellijk voordeel bij heeft.
Dankzij deze aanpak komt DeepNash met gedurfde bewegingen die de tegenstander op het verkeerde been zetten.
Zo offerde de computer in één spel enkele hoge officieren op om de sterkste stukken van de tegenstander in het spel te lokken, zodat hij in een hinderlaag kon toeslaan en als winnaar uit de bus kwam.
Dus in plaats van voortdurend zijn individuele zetten te optimaliseren in een spel met veel onbekende factoren, kan de kunstmatige intelligentie na verloop van tijd de tegenstander met bluf zo ver krijgen om zich bloot te geven, waarna hij zijn slag slaat.
Te gebruiken in zelfrijdende auto’s
De vaardigheden van DeepNash kunnen ook buiten het strategobord van pas komen.
Zo kan een bliksemsnelle inschatting van je eigen en andermans rijstrategieën een rol spelen voor zelfrijdende auto’s, die snel beslissingen moeten nemen in druk verkeer.
‘Als je een zelfrijdende auto maakt, moet je er niet van uitgaan dat alle andere bestuurders volledig rationeel zijn en zich optimaal gedragen,’ zegt dr. Noam Brown van concurrent Meta AI, die het onderzoek vanaf de zijlijn heeft gevolgd, tegen Singularity Hub.