IT之家 12 月 4 日消息,由英国 DeepMind 公司开发的人工智能“DeepNash”,通过“虚张声势”类欺诈手段在《西洋陆军棋 / 战略围棋 (Stratego)》中击败了具有专家水平的真人玩家,它甚至可以为了胜利而故意牺牲掉重要棋子,这一行为在 AI 研究中具有十分重要的意义。
相关研究报告已经发表在国际性科学杂志《新科学家(New Scientist)》中,DOI:10.1126/science.add4679。
这项研究的学者表示,它代表了一种“非同寻常的结果”,因为 Stratego 圈内人士认为“这是用现代技术所无法实现的”。
(资料图片)
在 Stratego 中,每个玩家控制 40 个不同等级的棋子在 10×10 方格的棋盘上进行博弈。如果双方在棋盘上遭遇,排名更高的棋子将击败排名较低的棋子,但你看不到对方棋子的身份,但这一点就可能造成无数的“意外”,而这并不是穷举法可以简单破解的。
简单来说,Stratego 就是一款类似军旗的策略型棋盘游戏,其规则简单到可以供幼儿玩耍,但其策略之深度是成年人也难以吃透的。从“策略”角度来看,Stratego 这种战棋要比国际象棋、围棋或扑克牌有着更多的变数,难度系数也更高。
DeepMind 研究者 Julien Perolat 表示,“对我们来说,它最令人意外的行为是 [AI] 能够牺牲具有价值的棋子来获取有关对手所制定策略的信息”。
多年来,Stratego 一直作为 AI 研究的下一个前沿领域之一进行攻关,旨在测试 AI 能否如同人类一般做出相对激进、谨慎,或是布局长远的行为,归根结底还是考察 AI 对于游戏逻辑的判断和临场决策的能力。
Julien Perolat 和他同事在此介绍了一种新的方法,它能让 AI 来更好地学习该游戏。他们利用这种新方法开发了一个名为 DeepNash 的 AI 机器人,它能在该游戏的最复杂版本“Stratego Classic”中展示出堪比人类专家级的表现。
IT之家了解到,DeepNash 的核心是一种强化学习算法“R-NaD”。为制作 DeepNash,Perolat 和团队将 R-NaD 与深度神经网络架构结合,从而使其在高端竞技层面进行博弈策略的学习和思考。
最终,DeepNash 与各种最先进的 Stratego 机器人和专业玩家进行了博弈测试,而它最终也成果战胜了所有其它的机器人,并在 Gravon (一个互联网游戏平台,也是 Stratego 的最大在线平台) 上击败了各路具有专家级水平的真人玩家,截止报告发布时已经在该平台排名前三,而它的对手丝毫没有意识到网线对面竟然是个 AI。
除此之位,DeepMind AI 在对抗顶级战略游戏机器人时也取得了 97% 的胜率,其中不乏一些曾赢得世界锦标赛的机器人。
“优秀的棋手往往会记住对手的棋子并预测他们的核心布局,”马耳他大学的 Georgios Yannakakis 说,“DeepNash 两者都做得很好 —— 当然 AI 可能在记忆力方面比人更有优势 ,而且他还会用有趣且不可预测的方式进行游戏,例如虚张声势。”
宾夕法尼亚州卡内基梅隆大学的 Tuomas Sandholm 表示,DeepNash 博弈论可以证明 AI 在与其他人打交道的非博弈情况下也是有用的,例如在商业和国防领域。