deepmind将直播ai血洗人类玩家、称霸《星际争霸 ii》! – 十轮网-九游会官网真人游戏第一品牌

半年前, openai five 在 ti8 赛事 中与人类职业选手大战 dota 的盛况还历历在目,年前,deepmind ai 也要在游戏界搞大事情了。

这次,ai 要挑战的是暴雪的经典游戏—— 星际争霸 ii。

ai 即将进攻星际争霸 ii

deepmind 23 日在twitter 上公开发布了“战帖”,表示要在两天后当地时间周四下午 6 点,也就是北京时间周五凌晨 2 点,直播打星际ii。

这不是一次简单的直播,更像是一场特别的“发布会”,deepmind 想要通过这场比赛,公开展示 ai“学到的新战术”。

本次的将要出战的 ai 是由 deepmind 和暴雪联合培养的,经过了“特别的训练方式”,似乎对这次比赛的胜利很有信心。

比赛将会在星际的 twitch 频道和 deepmind 的 youtube 频道同步直播,先给出网址,星际ii 的玩家们,你们准备好对抗 ai 了吗?

暴雪在最近的 blizzcon 上,总结了自己 2018 年的工作,并相当低调地发布了“与 deepmind 合作正在继续 ”的更新:

deepmind 一直在努力训练他们的 ai 更好地了解星际争霸 ii。一旦它开始掌握游戏的基本规则,它开始展示“有趣”的行为,例如立即冲向对手。目前,即时在“疯狂”难度下的星际争霸 ii,ai 的成功率已经可以达到 50%!

而且它还在学习:“在向它提供了更多真实玩家的游戏录像之后,ai 开始执行标准的宏观策略,以及防御诸如加农炮冲击等激进战术。”

经过三个月的训练,显然这只 ai 取得了不错的进展,而 deepmind 和暴雪都认为现在已经到了将其公诸于众的时候。

暴雪 23 日也发布声明称,这场比赛将提醒我们,所有 ai 都在以几何速度学习。 “星际争霸游戏已经成为人工智能社区的“巨大挑战”,因为它们是针对诸如规划,处理不确定性和空间推理等问题的进展基准的完美环境。 ”

其实早在 2016 年,deepmind 已经立下 flag 要教会 ai 玩儿星际争霸 ii ,也已经有包括 facebook、阿里巴巴等不少科技公司或者研究机构开拓过“星际”这片竞技场,但 deepmind 这样专治人类各种不服的公司正式宣布与暴雪合作,还是让一票星际玩家大呼“热血”。 暴雪承诺将持续发布从“星际争霸 ii”天梯中收集的数十万个匿名游戏视频,这会将训练变得更加容易。

2017 年 7  月份,deepmind 已经官宣正式与暴雪娱乐合作,共同开发可以在星际争霸 ii 中与人类玩家对抗的ai,并且发布了 sc2le,一个旨在加速即时战略游戏其中ai  应用的工具集。

这次训练的 ai 所采用的数据,很可能是暴雪承诺过的“星际争霸 ii”天梯中收集的数十万个匿名录像。有了这些数据,相信 ai 的能力也会有突飞猛进的提升。

超过10 万种配置可能,alpha go 也应对不来

不要以为有了优质数据就能训练出来超强的 ai。其实这并不是一项轻松的任务,因为游戏的复杂性和更多可能性也让 ai 战胜人类要远比在棋盘游戏上复杂。

星际争霸和星际争霸 ii 是史上最大和最成功的游戏之一,它们见证了许多玩家从青葱岁月到为人父母的 20 多年。其原始游戏早已被 ai 和 ml 研究人员使用,并在每年的 aiide 机器人大赛中进行角逐。

使用 ai 在星际争霸中对战人类玩家会比围棋艰难得多,对于 ai 来说,最大的难点在于,每一场对决都存在大量可能的方式。

据估计,每场对决有 101,685 种可能的配置,为了给大家一个直观感受,alpha go 的配置层是10,170。

此外,不同于棋类游戏的轮流依次进行走步,并且拥有决策的时间,在星际争霸中,玩家会同时出招,且不能看到对方玩家的状态,也就是说,所有决定需要在“不完整信息”的情况下做出。所有这些都意味着,你不能仅靠逻辑和一些步骤找到赢得对决的最优方式,玩家更需要的是策略和主动。

采用pysc2 模型训练 ,应对多种可能性

星际争霸 ii 的玩家在同一时间可能有 300 多种基本行动可以选择,因此策略集及策略选择也对 ai 构成了巨大的挑战。与此形成鲜明对比的是雅达利游戏,大概只有 10 种选择(例如,下,左,右等)。除此之外,星际争霸中的很多操作是分级的,可以进行修改和扩展,其中很多都需要操作屏幕上的一个点进行。即使一个小 84x84 的屏幕也会产生大约 1 亿种可能的行动选择。

之前发布的 pysc2 可以帮助研究人员利用暴雪自己的工具来解决这些挑战,并且构建自己的任务和模型。

pysc2 环境提供了一个灵活的,易于使用的 rl 代理游戏界面。在最初的版本中,游戏被分解为“特征层”,其中的游戏元素,如单元类型、单位的健康度和地图的可见性彼此隔离,同时保留游戏的核心视觉和空间元素。

之前发布的 pysc2 还包括一系列的迷你游戏,一种将游戏分解成小模块的技术,可以用来测试特定任务的代理,比如移动视角、收集矿物碎片或选择单位。 deepmind 希望研究人员可以测试他们的技术,并且开发新的迷你游戏,以供其他研究人员进行使用和评估。

发表评论