AI终于掌握了博弈技巧，DeepMind AI 通过欺骗性手段击败人类玩家

IT之家 12 月 4 日消息，由英国 DeepMind 公司开发的人工智能“DeepNash”，通过“虚张声势”类欺诈手段在《西洋陆军棋 / 战略围棋 (Stratego)》中击败了具有专家水平的真人玩家，它甚至可以为了胜利而故意牺牲掉重要棋子，这一行为在 AI 研究中具有十分重要的意义。

相关研究报告已经发表在国际性科学杂志《新科学家（New Scientist）》中，DOI：10.1126/science.add4679。

这项研究的学者表示，它代表了一种“非同寻常的结果”，因为 Stratego 圈内人士认为“这是用现代技术所无法实现的”。

(资料图片)

在 Stratego 中，每个玩家控制 40 个不同等级的棋子在 10×10 方格的棋盘上进行博弈。如果双方在棋盘上遭遇，排名更高的棋子将击败排名较低的棋子，但你看不到对方棋子的身份，但这一点就可能造成无数的“意外”，而这并不是穷举法可以简单破解的。

简单来说，Stratego 就是一款类似军旗的策略型棋盘游戏，其规则简单到可以供幼儿玩耍，但其策略之深度是成年人也难以吃透的。从“策略”角度来看，Stratego 这种战棋要比国际象棋、围棋或扑克牌有着更多的变数，难度系数也更高。

DeepMind 研究者 Julien Perolat 表示，“对我们来说，它最令人意外的行为是 [AI] 能够牺牲具有价值的棋子来获取有关对手所制定策略的信息”。

多年来，Stratego 一直作为 AI 研究的下一个前沿领域之一进行攻关，旨在测试 AI 能否如同人类一般做出相对激进、谨慎，或是布局长远的行为，归根结底还是考察 AI 对于游戏逻辑的判断和临场决策的能力。

Julien Perolat 和他同事在此介绍了一种新的方法，它能让 AI 来更好地学习该游戏。他们利用这种新方法开发了一个名为 DeepNash 的 AI 机器人，它能在该游戏的最复杂版本“Stratego Classic”中展示出堪比人类专家级的表现。

IT之家了解到，DeepNash 的核心是一种强化学习算法“R-NaD”。为制作 DeepNash，Perolat 和团队将 R-NaD 与深度神经网络架构结合，从而使其在高端竞技层面进行博弈策略的学习和思考。

最终，DeepNash 与各种最先进的 Stratego 机器人和专业玩家进行了博弈测试，而它最终也成果战胜了所有其它的机器人，并在 Gravon (一个互联网游戏平台，也是 Stratego 的最大在线平台) 上击败了各路具有专家级水平的真人玩家，截止报告发布时已经在该平台排名前三，而它的对手丝毫没有意识到网线对面竟然是个 AI。

除此之位，DeepMind AI 在对抗顶级战略游戏机器人时也取得了 97% 的胜率，其中不乏一些曾赢得世界锦标赛的机器人。

“优秀的棋手往往会记住对手的棋子并预测他们的核心布局，”马耳他大学的 Georgios Yannakakis 说，“DeepNash 两者都做得很好 —— 当然 AI 可能在记忆力方面比人更有优势，而且他还会用有趣且不可预测的方式进行游戏，例如虚张声势。”

宾夕法尼亚州卡内基梅隆大学的 Tuomas Sandholm 表示，DeepNash 博弈论可以证明 AI 在与其他人打交道的非博弈情况下也是有用的，例如在商业和国防领域。

关键词：虚张声势不乏一些