谷歌DeepMind近日发布了一项新研究,介绍了一种名为“可扩展可指导多世界代理”(SIMA)的AI代理,它可以在各种视频游戏环境中执行自然语言指令来完成任务。
视频游戏是人工智能系统的一个关键实验场。与现实世界一样,游戏是丰富的学习环境,具有响应灵活、实时的设置和不断变化的目标。
从我们早期在Atari游戏上的工作,到我们的AlphaStar系统可以在《星际争霸II》中达到人类大师级别,谷歌DeepMind在AI和游戏领域有着悠久的历史。
今天,我们宣布了一个新的里程碑 – 将我们的重点从单个游戏转移到一个通用的、可指导的游戏玩家AI代理。
在一份新的技术报告中,我们介绍了SIMA,即可扩展可指导多世界代理,这是一个针对3D虚拟环境的通用AI代理。我们与游戏开发者合作,让SIMA在各种视频游戏中进行训练。这项研究是第一次展示了一个代理可以理解广泛范围的游戏世界,并且可以像人类一样遵循自然语言指令在其中执行任务。
这项工作不是为了取得高分。学会玩一个视频游戏对于一个AI系统来说已经是一个技术壮举,但学会在各种游戏设置中遵循指令可能会为任何环境带来更多帮助的AI代理。我们的研究展示了如何通过语言界面将先进的AI模型的能力转化为有用的、真实世界的行动。我们希望SIMA和其他代理研究能够利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有用。
学习自视频游戏
我们与八家游戏工作室合作,在九款不同的视频游戏中训练和测试了SIMA。
为了让SIMA接触到更多的环境,我们与游戏开发者建立了一些合作关系进行研究。我们与八家游戏工作室合作,在九款不同的视频游戏中训练和测试了SIMA,例如Hello Games的《无人之境》和Tuxedo Labs的《拆解》。SIMA组合中的每款游戏都打开了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到挖掘资源、驾驶飞船或制作头盔。
我们还使用了四个研究环境 – 包括我们与Unity合作建立的一个新环境,称为Construction Lab,代理需要用建筑块建造雕塑,这测试了它们对物体操纵和对物理世界的直观理解。
通过学习不同的游戏世界,SIMA捕捉了语言与游戏行为的联系。我们的第一种方法是记录我们组合中各款游戏的一对人类玩家,一个玩家观看并指导另一个玩家。我们还让玩家自由玩,然后重新观看他们的操作,并记录会导致他们游戏行为的指令。
SIMA由预训练的视觉模型和一个包括内存的主模型组成,并输出键盘和鼠标操作。
SIMA:一个多才多艺的AI代理 SIMA是一个可以感知和理解各种环境的AI代理,然后采取行动来实现指导目标。它包括一个专门设计用于精确的图像语言映射的模型,以及一个可以预测屏幕上下一步发生的事情的视频模型。我们根据SIMA组合中的3D设置的特定训练数据对这些模型进行了微调。
我们的AI代理不需要访问游戏的源代码,也不需要定制的API。它只需要两个输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面就是人类使用的界面,这意味着SIMA可能与任何虚拟环境进行交互。
当前版本的SIMA在大约10秒内完成了评估600个基本技能,涵盖了导航(例如“向左转”)、对象交互(例如“爬梯子”)和菜单使用(例如“打开地图”)等方面。
我们希望我们未来的代理能够解决需要高水平战略规划和多个子任务完成的任务,例如“寻找资源并建造一个营地”。这是一个对AI来说很重要的目标,因为虽然大型语言模型已经催生出了可以捕捉世界知识并生成计划的强大系统。
发表回复