Nedávno se umělé inteligenci z Carnegie Mellon University podařilo porazit čtyři profesionální pokerové hráče hrající Texas Hold’em. Nyní tvůrci této AI právě potvrdili, že tato AI má nadlidskou schopnost vyhrát tuto hru.
Začátkem roku 2017 dokázala Libratus, umělá inteligence z Carnegie Mellon University, porazit čtyři profesionální pokerové hráče hrající Texas Hold’em. Nyní tvůrci této AI právě potvrdili, že Libratus má nadlidskou schopnost vyhrát tuto hru.
Ve studii publikované v Science, Tuomas Sandholm, profesor výpočetní techniky, a Noam Brown, jeho student, podrobně popisují, jak jeho umělá inteligence zvládla rozdělit hru na výpočetně zvládnutelné části a s hrou jejích oponentů vyřešit případné slabosti v jejich strategii během soutěže. Udělal to s více rozhodovacími body, než mají atomy ve vesmíru.
Programy umělé inteligence porazily ty nejlepší lidi v šachu a hře, což jsou výzvy, ale ve kterých oba hráči vždy vědí přesný stav hry. Hráči pokeru se naopak zabývají skrytými informacemi: jaké karty mají jejich oponenti a zda soupeř blafuje.
V 20denní soutěži zahrnující 120 000 her v Rivers Casino v Pittsburghu se Libratus stal prvním strojem, který porazil nejlepší lidské hráče v heads-up no-limit Texas Hold’em.
Libratus porazil každého z hráčů jednotlivě ve hře pro dva hráče a dohromady nashromáždil více než 2,1 milionu dolarů v žetonech.
"Techniky v Libratusu nevyužívají odborné znalosti ani lidská data a nejsou specifické pro poker," uvedli Sandholm a Brown v dokumentu. "Proto se vztahují na velké množství nedokonalých informačních sad." Taková skrytá informace je v reálném světě nekonečná zaznamenali strategické interakce, včetně obchodního jednání, kybernetické bezpečnosti, financí, cen a armády aplikace.
Libratus obsahuje tři hlavní moduly, z nichž první vypočítává abstrakci hry, která je menší a snadněji řešitelné než zvažování 10 ^ 161 (číslo 1 následovaných 161 nulami) možných rozhodovacích bodů v hra. Dále vytváří vlastní podrobnou strategii pro první kola Texas Hold’em a hrubou strategii pro další kola. Příkladem těchto abstrakcí v pokeru je seskupení podobných hand a stejné zacházení s nimi.
"Intuitivně existuje malý rozdíl mezi King-high žebříkem a Queen-high barvou," řekl Brown. "Zacházení s těmito rukama jako s identickými snižuje složitost hry, a proto je z výpočetního hlediska snazší."
Ale v závěrečných kolech hry vytvoří druhý modul novou abstrakci založenou na stavu hry. Během lednové soutěže provedl Libratus tento výpočet pomocí počítače Bridges z Pittsburghského superpočítačového centra.
Pokaždé, když soupeř provede tah, který není v abstrakci, modul vypočítá řešení pro tuto podhru, které zahrnuje pohyb soupeře. Sandholm a Brown nazývají toto vnořené řešení podher.
Třetí modul je navržen tak, aby zlepšoval strategii plánu v průběhu hry. Sandholm obvykle řekl, že roboti pomocí strojového učení vyhledávají chyby ve strategii soupeře a využívají je.
Namísto toho Libratův samo-prováděcí modul analyzuje velikost sázek soupeřů a detekuje potenciální díry v samotné strategii. Poté Libratus přidá tyto chybějící větve rozhodování, vypočítá pro ně strategie a přidá je do plánu.
Kromě toho, že porazil lidské profesionály, byl Libratus hodnocen oproti nejlepší umělé inteligenci v pokeru. Patří mezi ně Baby Tartanian8, robot vyvinutý Sandholmem a Brownem, který zvítězil na výročním počítačovém pokeru 2016 Soutěž pořádaná společně s Asociací pro rozvoj každoroční umělé inteligence Konference.
Stroje vidí hru jako strom. Zjednodušeně vycházejí z každého uzlu dvě větve, což jsou možná rozhodnutí nebo cesty, které je třeba podniknout. Pro každou z těchto větví vyráží ovoce, což jsou možné reakce oponenta. Podle toho, odkud ovoce pochází, se objeví další dvě větve. Listy a ovoce soutěží o jeden cíl: dosáhnout slunečního světla.
Je zřejmé, že ne všechny větve jsou tak listnaté, ani všechny plody pro ně tak kompromisní. Pohled na strom jako celek, zdola nahoru, by nám poskytl vizi optimální cesty k dosažení slunce. Ale to vyžaduje čas. Z tohoto důvodu mohou být některé větve ořezány svými plody, takže užší.
Neuronové sítě jsou jako zkušení zahradníci. Mohou se naučit, které větve jsou obvykle ty, které dosahují výše, nebo ty, které přinášejí nejvíce ovoce. Zkušenost vás přiměje bodovat větve podle toho, zda jsou produktivnější nebo listnatější, a pomáhá tak rozhodovat o tom, kde se budou stříhat.
Co si o tom myslíte? Jednoduše sdílejte své názory a myšlenky v sekci komentářů níže.