近距离观看某人玩战略棋盘游戏

深度纳什已经掌握了在线版的棋盘游戏《战略围棋》。资料来源:《迷失中西部》/Alamy

另一个长期以来被认为是人工智能(AI)难以掌握的游戏已经落入机器手中。伦敦公司DeepMind制造的一款名为“深度纳什”(DeepNash)的人工智能,在“战略围棋”(Stratego)游戏中与人类专家不相上下。“战略围棋”是一款棋类游戏,需要在不完全信息面前进行长期战略思考。

该成就,描述于科学12月1日1,紧跟着一项研究报告了一种可以玩外交的人工智能2在这个游戏中,玩家必须在合作和竞争的同时进行谈判。

密歇根大学安娜堡分校(University of Michigan)研究战略推理和博弈论的计算机科学家迈克尔•威尔曼(Michael Wellman)表示:“近年来,人工智能征服(或掌握到新水平)不同性质的游戏功能的速度相当惊人。”《Stratego》和《Diplomacy》是两款截然不同的游戏,它们的挑战性也明显不同于其他具有类似里程碑的游戏。”

不完全信息

战略围棋的特点使其比国际象棋、围棋或扑克复杂得多,所有这些都已被人工智能掌握(后两种游戏在2015年诞生)3.和2019年4).在《Stratego》中,两名玩家在棋盘上各放40个棋子,但不能看到对手的棋子是什么。游戏的目标是轮流移动棋子,消灭对手的棋子,并夺取一面旗帜。《Stratego》的游戏树(游戏邦注:即游戏所有可能走向的图形)有10条535而围棋只有10个州360.就游戏开始时的不完全信息而言,《Stratego》拥有10个不完全信息66可能是私人职位,这让10个人相形见绌6在双人德州扑克中这样的开局情况。

位于巴黎的DeepMind研究员朱利安·佩罗拉特(Julien Perolat)说:“Stratego中可能结果数量的绝对复杂性意味着,在完全信息游戏中表现良好的算法,甚至那些适用于扑克的算法,都不起作用。”

因此,佩罗拉特和同事们开发了DeepNash。人工智能的名字是对美国数学家约翰·纳什的致敬,他的工作导致了纳什均衡一词的出现,这是一组稳定的策略,所有的游戏玩家都可以遵循,这样没有玩家会因为自己改变策略而受益。博弈可以有0个,1个或多个纳什均衡。

DeepNash将强化学习算法与深度神经网络相结合,以找到纳什均衡。强化学习包括为游戏的每个状态找到最佳策略。为了学习最优策略,深度纳什已经和自己下了55亿盘棋。如果一方得到奖励,另一方就会受到惩罚,神经网络的参数(代表政策)也会相应调整。最终,深度纳什会收敛到近似纳什均衡。与AlphaGo等之前的游戏ai不同,深度纳什并不通过搜索游戏树来优化自己。

在4月份的两周时间里,DeepNash在在线游戏平台Gravon上与人类战略围棋玩家进行了比赛。经过50场比赛,自2002年以来,DeepNash在所有Gravon Stratego玩家中排名第三。“我们的研究表明,像战略围棋这样复杂的游戏,涉及不完全信息,不需要搜索技术来解决它,”团队成员、DeepMind驻巴黎的研究员卡尔·图尔斯(Karl Tuyls)说。“这是人工智能领域真正的一大步。”

“结果令人印象深刻,”总部位于纽约市的Meta AI研究员诺姆·布朗(Noam Brown)表示同意。他是2019年报告了能玩扑克的AI Pluribus的团队成员之一4

外交的机器

Brown和他在Meta AI的同事们将目光投向了另一个不同的挑战:构建一个可以玩《外交》(Diplomacy)的AI,这款游戏最多有7名玩家,每个玩家代表一战前欧洲的一个主要大国。目标是通过移动单位(舰队和陆军)获得对供应中心的控制。重要的是,这款游戏需要玩家之间的私人交流和积极合作,不像围棋或战略围棋这样的双人游戏。

布朗说:“当你超越了两方零和博弈之后,纳什均衡的思想就不再那么有用了。”

因此,该团队对其名为西塞罗的人工智能进行了训练,这些数据来自125,261场涉及人类玩家的在线版《外交》游戏。将这些数据与一些自我博弈数据相结合,西塞罗的策略推理模块(SRM)学会了根据游戏的特定状态和积累的信息,预测其他玩家可能采取的策略。利用这一预测,SRM选择最佳行动,并向西塞罗的对话模块发出“意图”信号。

对话模块建立在一个27亿参数的语言模型上,该模型预先训练了来自互联网的文本,然后使用人们玩的“外交”游戏中的信息进行了微调。根据SRM的意图,模块生成一条对话消息(例如,代表英格兰的Cicero可能会问法国:“你愿意支持我的车队前往比利时吗?”)。

在11月22日科学2,该团队报告称,在40款网络游戏中,“西塞罗的平均分是人类玩家的两倍多,在玩多款游戏的参与者中排名前10%”。

真实的行为

布朗认为,能够与人类互动并解释次优甚至非理性人类行为的游戏ai可以为现实世界的应用铺平道路。他说:“如果你正在制造一辆自动驾驶汽车,你不会想假设路上的所有其他司机都是完全理性的,并且会表现得最优。”他补充道,西塞罗是朝着这个方向迈出的一大步。“我们的一只脚仍然在游戏世界里,但现在我们的一只脚也在现实世界里。”

威尔曼对此表示同意,但他说还需要做更多的工作。他说:“这些技术中的许多确实与娱乐游戏之外的现实应用有关。”“然而,在某种程度上,领先的人工智能研究实验室需要超越娱乐环境,弄清楚如何在我们真正关心的更棘手的现实世界‘游戏’中衡量科学进展。”