看人工智能Agent如何协作,玩虚拟抓猪游戏

“合作是人类智慧的核心,而现在有些算法正在学习这一人类智慧。”在玩抓猪游戏时,虽然我们面对的是一头虚拟的猪,但团队合作来抓猪总是更容易获得胜利。这一点在微软组织的竞赛中有了完美体现,微软的研究人员在竞赛中测试了人工智能Agent如何通过合作解决抓猪这一棘手问题。



这是人工智能迄今为止关注相对较少的领域。AI研究人员经常会开发一些程序,来执行特定的人类任务,通过程序与人类玩家的较量过程来测试AI程序的能力,比如会下棋的Alpha Go。然而,人类智慧博大精深,这里面涉及到沟通,社交智慧和大脑理论,预测能力,以及对智能机器的意图理解。


微软这一项目的另一层含义,则是讨论人类和人工智能系统应该如何协同工作,使合作的成果能大于二者单独工作的总和。艾伦人工智能研究所首席执行官Oren Etzioni说:“这是更广泛的趋势,让我们重新思考AI的定义,它是在人类智能上的增强智能而不是人造的智能。”


在微软的竞赛Project Malmo项目中,人工智能Agent可以相互合作,这是开放式电脑游戏Minecraft的一个特别版本,微软的研究人员设计了这个环境,使其能够直接导入和测试不同的AI技术。 Agent可以通过有效方式来相互协作或协助人类,尽管这一领域还需要更深远的研究,但微软的竞赛提供了可行方式来测试一些早期的想法。


在比赛中,不同Agent可以选择单独行动或者相互组队,通过控制动作来抓住乱跑的虚拟猪,每一次会获取相应的分数。马尔默协作AI挑战赛(Malmo Collaborative AI Challenge)的顶尖队伍使用了前沿的机器学习方法,比如他们使用了深度学习来训练Agent相互协作,这要求队伍拥有大量的数据,才能使用深度学习的方法进行训练。但是也有另一些参赛者使用了传统方法,也就是通过给Agent编写固定的代码,使其对环境和动作有对应的策略。


而此次挑战赛的获奖者是英国牛津大学的一个团队,他们在比赛中使用了强化学习,这是一种在实验中受动物的学习机制启发的机器学习方法。在强化学习中,每当Agent相互合作并成功地抓到猪以后,它们能够获得正反馈。微软Malmo项目的首席研究员Katja Hofmann指出,许多团队结合了不同的方法来完成比赛,没有哪一种单一的方法能成为真正的赢家,混合的方法很可能会为未来的研究提供一个特别有前景的方向。“


这次的抓猪游戏挑战赛来源于思维实验Stag Hunt,Stag Hunt探索了涉及合作和谈判策略的数学概念——游戏理论。在这个思维实验中,游戏的猎人必须要做出选择,到底是单独行动去追猎价值相对较小的野兔,还是相互合作去追猎价值更大的雄鹿。微软将会根据参赛者取得的成绩以及算法的新颖性进行评判,顶尖队伍将会获得20,000美元的研助资金和微软研究AI暑期学校的工作机会。


研究机器学习和数据挖掘的华盛顿大学教授佩德罗·多明戈斯(Pedro Domingos)表示,在模拟环境中训练AI模型有其缺陷,模拟的环境可能会使得模型优化过度,因此降低了模型在真实世界的有效性。Domingos教授还提到,现在模拟环境变得越来越复杂,这一点稍有改善。


Domingos教授补充说,人类之间的合作是如此复杂和微妙,很难想象微软的这一项目能产生真正有用的方法。但尽管持有怀疑,Domingos教授表示他还是被这一项目所鼓舞,他说:“目前AI协作还处于研究的早期阶段,Minecraft提供了很多的可能性,这一项目比以前的研究更加丰富,非常值得一试。”




上一篇:芬兰初创公司大幅提升VR显示… 下一篇:摩尔定律后,人工智能怎样保持…




推荐文章:

英特尔另辟蹊径,用硅材料打造量子计算机!深度学习模仿巴赫清唱曲,可以假乱真美空军成功测试IBM最新仿人脑芯片,以超低能耗识别俄罗斯坦克精度高达95%|独家即围棋之后,扑克又被人工智能攻陷最新量子计算机单价1500万美金成功出售,但仍遭遇科学家质疑|独家下一代AI家庭助手将拥有可视化界面