7 月 11 日,腾讯宣布自研棋牌类 AI “绝艺 LuckyJ” 在国际知名麻将平台“天凤”上达到十段水平,刷新了 AI 在麻将领域的最好成绩。“绝艺 LuckyJ” 展现了在非完美信息博弈游戏中的优秀决策水平,进一步提升了 AI 解决现实世界问题的能力。
(资料图片)
日本在线麻将竞技平台“天凤”创建于 2006 年,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数 23.8 万,而能达到十段的仅 27 人(含 AI),不到万分之一。
相比其他麻将 AI 和人类玩家,“绝艺 LuckyJ”不仅稳定段位更高,从零开始达到十段所需的对战局数也明显更少,仅需要 1321 局。这体现了腾讯 AI Lab 在决策 AI 方向上世界领先的技术实力。
统计意义上看天凤稳定段位 bootstrap 的分布,绝艺 LuckyJ 显著强于之前最强的两个日本麻将 AI(Suphx,NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
腾讯 AI Lab 研究员表示,现实世界中充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。在游戏环境中推进决策 AI 的能力,最终是希望 AI 能从虚拟走向现实,解决真实世界的复杂问题。
过去半个世纪以来,游戏在人工智能技术的演进中发挥了重要的作用。游戏多样化的情境为 AI 的训练和学习提供了便利的研究场景,从国际象棋到围棋,再到德州扑克、王者荣耀等游戏,AI 不断在游戏场景中拓展能力边界。
围棋、象棋都属于完美信息博弈,参与竞技双方的每次决策,都可以看到全局的信息。AI 能够通过强大的计算力来枚举各种可能性,从而找到致胜策略。而麻将无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈。
据介绍,麻将一共有 136 张牌,每一位玩家只能看到很少的牌,包括自己的 13 张手牌和所有人打出来的牌。牌局开始时,另外三位玩家的手牌以及墙牌都是看不到的,面对如此多的隐藏未知信息,麻将玩家的每一个决策都需要兼顾进攻和防守。
此外,在麻将的对战中,除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以都会改变摸牌的顺序,这一过程也涉及了大量的决策。
如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息。纵坐标信息集平均大小表示隐藏信息的多少,即其他所有对手的手牌的可能性。麻将所包含的隐藏信息要远远大于德州扑克。
为了更好地解决麻将游戏中存在的大量隐藏信息的难题,提升 AI 的决策能力,腾讯 AI Lab 基于强化学习和遗憾值最小化的自我博弈技术,使得 AI 能从零开始自我学习和提高,并最终收敛到一个最强的混合策略,让 AI 在实际对战的过程中拥有更加平衡的策略能力。
同时,考虑到传统的非完美信息搜索算法在麻将面前很难发挥太大的作用,腾讯 AI Lab 基于乐观价值估计的思想,提出了一种高效的非完美搜索方法,使得 AI 在有海量隐藏信息的游戏状态中,仍可以实时调整当前策略,从而更好地应对多变的战局。
相比人类,“绝艺 LuckyJ“在麻将游戏中,拥有更加平衡的策略,对局势的计算更精确,其中包括打每张牌的期望收益、未来可能胡哪些番型等等,通过这样的“策略”训练,也为 AI 走入更多行业打下了基础。
天凤平台开发公司 C-EGG 的 CEO 角田真吾表示:“这是麻将 AI 的又一次突破,LuckyJ 进一步拓宽了麻将 AI 的能力边界。令人感到兴奋的是,在特上房包括人类玩家在内的对战 1000 局以上的所有玩家中,LuckJ 的稳定段位排名第一”。
在网上对 LuckyJ 历史对局有深入研究的天凤十段玩家、日本麻将战术研究家 yousei 评价,LuckyJ 给人的印象是在每张牌上看到“攻击、防守的参数”,总体上,LuckyJ 看起来“完全没有漏洞”,一方面通过保留安全牌等策略降低事故率。另一方面,即使手牌中同时存在多个和牌方向,LuckyJ 也可以在这些复杂的分支中顺利进行下去。
值得一提的是,“绝艺 LuckyJ“在国标麻将中也有亮眼表现,在线下职业选手邀请赛中击败六位职业选手,成为首个战胜国标麻将顶尖职业选手的麻将 AI。
图注:对战数据显示,在近 2000 场对局中,绝艺 LuckyJ 的平均赢番达到 1.76 番,这里番为国标麻将的结算单位,数值越大,说明赢得越多。
曾与绝艺 LuckyJ 对局的棋手们,也对它做出了高度评价。“雀友杯”2014 年世界麻将大师邀请赛冠军,腾讯麻将锦标赛年度总决赛(2018,2019)冠军成海华提到,AI 在攻防两端都表现得都十分出色,充分体现了计算上的优势,让他刮目相看。
国标麻将职业选手,标榜麻将运动协会会长杨磊也有相同的感受:“经过数月与腾讯麻将 AI 的对抗测试,通过分析 AI 对局,AI 无论在进攻还是防守都让我印象深刻。我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于 AI 来说可能算是常规操作。”
国标麻将及日本麻将职业选手黄林说,在与 AI 的上千次对战中,他一直惊叹于 AI 强大的牌效和精准的读牌,形容它“在攻防两端都做到了极致”。
决策与生成是当前人工智能发展的两大主线,也是研究通用人工智能的必由之路。在模拟真实世界的虚拟游戏中,AI 学会快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。从 2017 年开始,腾讯 AI Lab 自研的绝艺、绝悟两款决策 AI,借助棋牌、MOBA 等多类游戏场景,探索用 AI 解决现实中的复杂问题。
现实生活中存在大量的隐藏信息和不确定的因素,麻将游戏中复杂的决策过程和带有随机性的博弈,比围棋这样的完美信息游戏更加接近真实的现实生活。“绝艺 LuckyJ” 在专业领域的突破,体现了腾讯 AI Lab 的深度强化学习智能体不断进化,正逐渐向解决更复杂更多样化的问题迁移。对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加“智能”的 AI 系统。
关键词: