完胜四名专业级德州扑克玩家?AI软件Libratus何以称雄?


全文共2786字,预计学习时长8分钟

来源:Pexels

科技世界正在以我们无法想象的速度千变万化。

 

当激励机制还为人类所掌控,而我们作为人类-技术关系中唯一开拓者的日子已经一去不复返了。

 

如今,情况已转变,我们的造物开始声明什么是他们应得的。

 

不,我不是在谈论机器人霸主的世界末日反乌托邦场景;而是要说明机器在创建过程中日益提升的参与度。

 

人工智能时代来了…

 

你可能猜到了我要提的技术:人工智能。

 

在数字革命中,人工智能也许已成为最宏大和最活跃的领域,其永无止境的创新轰动了整个行业。仅举个例子,一个叫做Libratus的基于人工智能的软件,在20天的比赛中,主动出击,全力以赴,击败了四名无限制德州扑克的职业玩家。

 

像Libratus这样的人工智能软件是我们努力实现世界自动化进程的重大里程碑。通过这样的创新,人类-技术相互关联概念的现实性和可行性得到巩固。无论是华尔街的金融投机还是专业的电子游戏领域,人工智能都在不断证明自身价值。

 

来源:Pexels

为什么打扑克是人工智能面临的重大难题

 

在扑克高手和人工智能之间这场极其艰难的比赛之前,许多人工智能爱好者甚至不敢幻想他们的软件能打败扑克大师,更不用说在最复杂的游戏版本中对抗了。

 

通常,由于游戏的布局,即使是基本的电子扑克游戏也很难被击败:玩家总是隐藏自己的牌,更不用说虚张声势并欺骗对手了。而当谈到无限制德州扑克游戏时,风险就更大了。

 

根据谷歌AI实验室创始人Andrew Ng的说法,人工智能很难在扑克游戏中获胜,因为游戏玩家只能掌握一小部分信息,而非游戏的全部。这对人工智能来说是一个巨大的挑战,它需要研究对手的所有动作和可能性,而这反过来又使得预测最佳动作变得不可能。

 

因此,为了利用其非凡的计算能力,人工智能会随机化每项动作,使得对手很难理解它什么时候虚张声势,什么时候没有。

 

Libratus VS 四个职业扑克玩家

 

所以,我们来看看这个著名的案例,2017年Libratus软件成功击败了四名扑克玩家,非1名、2名或3名。无论从哪方面来看,这件事都不是想象中那般简单——不管是玩家,还是游戏,甚至是人工智能软件本身。

 

在匹兹堡一家赌场里,与Libratus对决的是世界上最著名的扑克手,Dong Kim和其他三位。无限德州扑克牌理所应当是最复杂的扑克游戏。但由于复杂的下注策略和手法,他们玩的游戏远不逊于无限德州扑克牌。

 

正如Kim自己阐述的那样,他觉得这个程序实际上是在看他的牌,但并不像是作弊或其他途径——“就是那么好,”Kim说。正如我们已经提到的,Libratus成功击败了Kim以及其他三名职业扑克玩家,这是人工智能史上首次取得该胜利。

 

但人工智能软件也不是普通的设计。事实上,这并不是一个单独的软件来对付这四个扑克玩家。卡耐基梅隆大学学生Noam Brown和他的导师Tuomas Sandholm教授创建了Libratus,这是三个独立系统的副产品,三系统无缝工作以确保最终的结果,这种方式基本上是吞噬专业人士。甚至有人参与了这个过程,但我们不要忘乎所以地讨论个别因素。

 

学习动作方法

 

负责发现和测试游戏中所有可能的手法的首要元素称为强化学习。在当今的人工智能世界中,获得广泛好评的流行软件称为深神经网络。神经网络允许机器模仿所有的人类动作和手势,甚至在某个时刻超越它们。

 

然而,Libratus没有使用深层神经网络进行操作。它是基于另一种被称为强化学习的人工智能。从根本上说,这个软件一次又一次地对自己下手,最终完善了它的知识库。

 

但与其他类似平台(比如谷歌的AlphaGo)的一个不同之处在于,Libratus并非出于获得基本技能然后出于完善自身的目的与人类竞争。而是,它被赋予了基本的游戏规则,然后必须从零开始学习一切。

 

在此过程中,最突出的因素是以惊人的频率随机打牌。经过数万亿次的练习和数月的高强度训练,Libratus达到了熟练水平。它不仅可以击败职业玩家,而且还可以发挥职业玩家无法猜到的最多随机手牌。

 

选择最佳动作

 

这个过程中的第二个元素是一个叫做“最终游戏求解器”的软件。当Libratus自身掌握了所有可能的动作和手法的时候,便创建了一个庞大的假设场景数据库。不过,在这部戏中,人工智能不必逐一检查,也不必测试最合适的版本。

 

在最终游戏求解器的帮助下,Libratus设法将注意力集中在游戏上,并在此过程中学习。这样,随着游戏的进行,可能采取的策略数量成倍减少,只剩下那些适合对手的场景。

 

因此,一个人工智能软件的两个独立部分相当复杂,从而能够对熟练的扑克玩家构成挑战。然而,它们仍然没有足够的效力来从事Kim和其他类似之人所从事的工作。他们可以找到Libratus每项动作的根本模式,并利用它们为自己谋利。

 

消除范式

 

为了避免这种情况,Libratus背后的两位创造者设计了第三个平台,消除了所有可识别的模式和相似之处。它的工作原理如下:比赛结束后,每天晚上,Brown和Sandholm都会运行他们自己的算法来检测这些模式并消除它们。通常,这个过程耗时一整夜,之后这些模式就不复存在了。

 

因此,正如你所看到的,Libratus不仅涉及人工软件和机械化,而且如前所述,还涉及人为因素。人工智能就是这样:虽然许多人认为它是一个可以自我运行并完全独立于人类干预的自给自足的实体,但现实情况却不同。在现实生活中,人类和人工智能是并肩工作的,对彼此的行为做出一定的调整。在这种情况下,人类将人工智能置于起点,而人工智能克服了缺陷到达了终点。

 

人工智能的未来就在于此

 

来源:Pexels

自动化世界的未来已经跃然于眼前。人类和机器正在打破彼此之间的僵局,迈出了为彼此活动做贡献的第一步。

 

当十九世纪初的技术革命开始时,机器慢慢地开始接管我们的工作,并也擅长于此。现在,人工智能不仅接管了我们正在做的事情,而且可以自己完成。而Libratus案例就是这种发展的最好示范。

 

当这款AI软件在无限注德州扑克中击败四名职业扑克玩家时,Libratus证明了它比任何职业玩家都能更熟练地虚张声势,使其动作几乎无法被预测。

 

谁也不知道未来会怎样,哪个行业会出现下一个Libratus。


推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:吴亚芳、李韵帷

相关链接:

https://hackernoon.com/heres-how-libratus-a-poker-playing-ai-bluffed-four-professional-texas-holdem-players-094l367v

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

发布了850 篇原创文章 · 获赞 2810 · 访问量 48万+

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/104666712