让一群AI玩“捉迷藏”,它们会想出啥战术来?

Python与机器学习 徐 自远 508℃

让一群AI玩“捉迷藏”,它们会想出啥战术来?

游研社 2019-09-20 19:32:47

你永远猜不到AI有多么异想天开。

总部位于旧金山的人工智能研究机构OpenAI的科学家目前在验证这样一个假设:如果在虚拟世界中模拟自然界物种竞争的环境,是否也会产生更聪明、更复杂的人工智能?

为了验证假设,他们再次用计算机模拟出了一个复杂的游戏环境,就像上次的“Neural MMO”游戏(不过我更喜欢称它为“AI的黑暗森林”)一样,整个环境中只有AI,没有活人。不过这次的游戏规则要更明确,你可以理解为“捉迷藏”。

在最近公开的一篇论文中,OpenAI透露了该研究的最新进展。研究人员在一个给定的开放空间下放置了多种工具,同时将一定数目的AI分为两组,并给了他们完全对立的游戏目标:

被称为“隐藏者”的AI需要尽可能隐藏自己不被搜寻者探测到;而“搜寻者”的目标正好相反,需要找出所有在地图中的“隐藏者”。当然,就想大家所熟悉的捉迷藏那样,开始前,“隐藏者”会有几秒钟自由行动的时间来隐藏自己。

游戏开始后,代表隐藏者的蓝色小人一旦出现在敌方的视野范围内,搜寻者便能得到一分奖励

除了基本的规则以外,研究人员没有对AI进行任何的额外干预和调整,它们在模拟环境中的任何行为都是当前自我认定的最优解。

实验刚开始,双方都只会漫无目的地在地图上移动,直到搜寻者发现找到隐藏者能带来额外的奖励时,AI的行为才变得有规律起来。

起初,研究人员将实验分为了四个阶段,在第一个阶段下,隐藏者AI只会跑到地图的方块后来躲避搜寻者的视线,这个阶段下的搜寻者很快也学会了如何绕到障碍物后寻找目标。

这个情况被模拟了2500万次后,游戏开始变得复杂起来。蓝色的小人开始移动地图中的方块让自己更不容易被抓到。当它们发现搜寻者无法穿过方块时,想出了个一劳永逸的办法:

用两个方块堵住房间入口,搜寻者便再也无法找到他们,在之后的7500万局模拟中,隐藏者靠这个技巧立于不败之地,甚至学会了如何用方块来给自己搭建一个安全的房间。这是研究人员所预测到的第二阶段。

但游戏又出现了新的转机。搜寻者开始注意到地图旁边可移动的斜坡,在经过数次的尝试之后,它们开始利用斜坡翻过墙壁并找到隐藏者,实验开始进入第三阶段。

不过战术永远是螺旋式上升的,很快,躲藏者又学会了在开始前将斜坡一并推进房间中并用方块堵住入口:

至此,研究人员认为该实验已经结束,搜寻者不可能再想出更好的解决方案,但在经过3.8亿次尝试后,搜寻者又琢磨出了一个新方法,出乎所有人的意料。

搜寻者找到了一个无法移动的斜坡,利用斜坡使自己站上方块并推动方块使自己跳入被隐藏者封闭的房间中。

为了应对这个办法,数次失败后,隐藏者又学会了新技能:在比赛开始前将每一个可移动的方块和斜坡都锁定住,以此使搜寻者再也无法使用工具。至此,这个AI的捉迷藏游戏才正式结束。

正如研究人员最后总结的那样:“一旦一方学会了新策略,就会给另一方带来相应的压力,就好像自然界中生物的进化过程一样。”

研究人员希望通过这个实验来探索AI适应环境的能力和自主发生的复杂行为,因此他们并没有传授AI如何使用工具的技巧。实验中所有的行为都是AI通过大量的实验自己掌握的。

简单的规则,存在竞争关系的多个主体,再加上可以自由使用的工具,三者结合在一起使得AI能适应多种复杂的环境,研究人员在最后表示:“就想它们在最后做出的行为一样,人工智能可以做出我们想不到的行为,或许在将来甚至能够解决人类无法解开的难题。”

他说的确实没错,在一次实验过程中,AI就帮他们找到了一个意料之外的穿模Bug:

http://t.zijieimg.com/mGSqE2/

转载请注明:徐自远的乱七八糟小站 » 让一群AI玩“捉迷藏”,它们会想出啥战术来?

喜欢 (0)

苏ICP备18041234号-1 bei_an 苏公网安备 32021402001397号