首页 > 资讯 > 正文

猩猩学会玩《我的世界》，方法竟和GPT-4智能体相通？

IT之家 2023-08-16 13:47:50 阅读量：2999 阅读量：11320

当猩猩学会玩《我的世界》，方法居然和英伟达科学家训练 GPT-4 智能体的方法一致？

注意，这位玩家正在熟练地玩着《我的世界》，ta 游刃有余地进行着收集零食和打碎积木的操作。

镜头一转，我们才发现:玩家的真实身份，竟然是一只猩猩！

没错，这是一项来自「猩猩行动计划」的非人类生物神经网络实验。而实验的主角 Kanzi，是一只 42 岁的倭黑猩猩。

经过训练后，它学会了各种技能，挑战了乡村、沙漠神殿、下界传送门等环境，一路通关到达终点。

而 AI 专家发现，猩猩训练师教会它学技能的过程，竟然跟人类教 AI 玩 Minecraft 有诸多类似之处，比如上下文强化学习、RLHF、模仿学习、课程学习等。

当猩猩学会玩《我的世界》

Kanzi 是来自 Ape Initiative 的一只倭黑猩猩，它是世界上最聪明的猩猩之一，听得懂英语，还会使用触摸屏。

在 Ape Initiative，Kanzi 能接触到各种电子触摸屏，这或许为它快速上手《我的世界》打好了基础。

人们第一次向 Kanzi 展示《我的世界》时，它一坐到屏幕前就发现了绿色的箭头，然后用手指划向了这个目标物上。

学习三种技能

才不过几秒钟，Kanzi 就发现了该怎样在《我的世界》中移动。随后，它还学会了收集奖励。

每收集一个奖励，它都会得到花生、葡萄、苹果之类的零食奖励。

Kanzi 的操作越来越娴熟。它会分辨和目标箭头同样是绿色柱形的障碍物，在收集奖励时绕开它们。

当然，Kanzi 也会遇到难关。它需要使用 break 工具击碎大的积木块，但这个操作，它此前从未见过。

眼看 Kanzi 卡住了，人类在旁边开始帮忙，指着所需的工具按钮。然而 Kanzi 看完后仍然没能领悟。

人类只好亲自上手，用工具敲碎了木块。Kanzi 看完后若有所思，在所有人期待的目光中，它也有样学样，点击按钮后击碎了木块。人们瞬间爆发出欢呼。

现在，Kanzi 的技能树已经集齐了两样:收集零食、打碎积木。

在学习山洞技能的时候，工作人员发现，如果从试图击碎的木块上滑落，Kanzi 就会直接走掉。因此，人们为它特别定制了一个任务 ——

在一个到处都是钻石墙的山洞中击碎木块，来证明它掌握了收藏和击碎的技能。

在山洞里一切都很顺利，然而，Kanzi 却遇到了一个问题:它在墙角被卡住了。此时，就需要人类伸出援手。

最终，Kanzi 到达了洞穴底部，击碎了最后一道墙。

人群爆发出欢呼，Kanzi 也高兴地和工作人员击掌。

骗过人类

接下来，有意思的来了:工作人员邀请了一位人类玩家，和 Kanzi 一起玩游戏，当然，他对于 Kanzi 的身份并不知情。

工作人员打算看一看，这位玩家会在多长时间后意识到，和自己一起玩游戏的并不是人类。

开始，这位小哥只是觉得，对方的移动速度慢到不可思议，当 Kanzi 的画面被展现到眼前，小哥直接被吓到后仰。

走出迷宫

之后再玩《我的世界》，Kanzi 越战越勇。

每当 Kanzi 收集到一个奖励，人们就会用欢呼的形式肯定它的行为，如果它失败了，训练员也会用鼓掌和欢呼鼓励它继续进行游戏。

这时，它已经学会解锁地下迷宫的地图:

击碎面前的障碍物:

找到紫水晶:

当 Kanzi 卡住的时候，它会出去散散心，拿回一根木棍放到自己旁边。就算不幸失败，Kanzi 也会点击按钮，让自己重生。

最后一关，是一个充满分岔路的巨大迷宫。

因为迟迟无法走出迷宫，Kanzi 焦躁起来，开始拿着树枝尖叫，或者气得把树枝折断。

最终，它让自己平静下来继续闯关，走出了迷宫。立刻，掌声和欢呼声把 Kanzi 包围了。

看来，《我的世界》是被 Kanzi 这只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之处

看着一只倭黑猩猩熟练地玩着电子游戏，多少会有点让人觉得有些荒诞和不可思议。

英伟达高级科学家 Jim Fan 对此评论道 ——

尽管 Kanzi 和它的祖先们一生从未见过《我的世界》，但它很快就适应了电子屏幕上显示的《我的世界》中的纹理和物理特性。

而这与它们一直以来接触和生活的自然环境截然不同。这种泛化水平远远超出了现今为止最强大的视觉模型。

训练动物玩《我的世界》的技巧本质上与训练人工智能的原则是相同的:

- 基于上下文的强化学习:

每当 Kanzi 在游戏中达到标记的里程碑时，他就会得到一个水果或花生，激励他继续遵循游戏中的规则。

- RLHF:

Kanzi 并不理解人类的语言，但它能看到训练人员为他加油打气，还会偶尔给出回应。来自训练人员的欢呼给了 Kanzi 一个强烈的信号:它走在正确的道路上。

- 模仿学习:

训练员为 Kanzi 演示了如何完成任务之后，它就立即掌握了相关操作的含义。演示的效果远远超出比单独使用奖励的策略。

- 课程学习:

训练员和 Kanzi 从非常简单的环境开始，逐步教导 Kanzi 掌握控制技能。最后，Kanzi 能够穿越复杂的洞穴、迷宫和下界。

不仅如此，即便是使用了类似的训练技巧，动物的视觉系统就能在极短的时间内识别和适应新的环境，而 AI 视觉模型则会花费更多的时间和训练成本，甚至常常难以达到理想效果。

我们再次陷入莫拉维克悖论的深渊:

人工智能与人类的能力表现相反。在我们认为无需思考或作为本能的低级智能活动中，人工智能表现很糟糕。但在需要推理、抽象的高级智能活动中(如逻辑推理和语言理解)，人工智能却很容易超越人类。

这正好对应了这个实验呈现的结果:

我们最好的人工智能在理解语言方面接近人类水平，但在感知、识别方面远远落后于动物。

网友:原来猩猩打游戏也会生气

Kanzi 和 LLMs 都可以玩《我的世界》，但 Kanzi 的学习方式和 LLMs 之间存在着不可小觑的差异，我们要注意这一点。

面对 Kanzi 优异的学习能力，网友们开始了恶搞。

有人预见 6 年以后的世界将成为猩球大战......

或者是猩猩喝可乐，融入人类社会......

甚至马老板也中枪了，被做成了「猴版」马斯克。

也有人说，Kanzi 是第一个拥有游戏玩家愤怒的非人类，ta 很满意。

「如果 Kanzi 有自己的游戏频道，我会老老实实看的。」

「在玩游戏上，人类与倭黑猩猩没有太大区别。我们都受到奖励的激励，以执行某些任务并完成目标，唯一的区别是奖励的实际内容。」

「在《我的世界》中，Kanzi 开采钻石的奖励更即时、更原始，而我们开采钻石的奖励则更延迟且与游戏相关。总之，有点疯狂。」

先是 GPT 学会了玩《我的世界》，现在倭黑猩猩也可以玩了，这让人不禁开始期待能用上 Neuralink 的未来。

Jim Fan 教 AI 智能体玩《我的世界》

在教 AI 玩 Minecraft 上，人类早已积累了许多先进经验。

早在今年 5 月，Jim Fan 团队就曾把英伟达的 AI 智能体接入 GPT-4，做出了一个全新的 AI 智能体 Voyager。

Voyager 不仅性能完胜 AutoGPT，而且还可以在游戏中进行全场景的终身学习！它可以自主写代码独霸《我的世界》，完全无需人类插手。

可以说，Voyager 出现后，我们离通用人工智能 AGI，又近了一步。

真?数字生命

接入 GPT-4 之后，Voyager 根本不用人类操心，完全就是自学成才。它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能，还学会了自个进行开放式探索。

通过自我驱动，它不断扩充着自己的物品和装备，配备不同等级的盔甲，用盾牌格挡上海，用栅栏圈养动物。

大语言模型的出现，给构建具身智能体带来了全新的可能性。因为基于 LLM 的智能体可以利用预训练模型中蕴含的世界知识，生成一致的行动计划或可执行策略。

Jim Fan:我们在 BabyAGI / AutoGPT 之前就有了这个想法，花了很多时间找出最好的无梯度架构

而在智能体中引入 GPT-4，就开启了一种全新的范式，让智能体摆脱了无法终身学习的缺陷。

OpenAI 科学家 Karpathy 也对此盛赞:这是个用于高级技能的「无梯度架构」。在这里，LLM 就相当于是前额叶皮层，通过代码生成了较低级的 mineflayer API。

3 个关键组件

为了让 Voyager 成为有效的终身学习智能体，来自英伟达、加州理工学院等机构的团队提出了 3 个关键组件:

1. 一个迭代提示机制，能结合游戏反馈、执行错误和自我验证来改进程序
2. 一个技能代码库，用来存储和检索复杂行为
3. 一个自动教程，可以最大化智能体的探索

首先，Voyager 会尝试使用一个流行的 Minecraft JavaScript API来编写一个实现特定目标的程序。

游戏环境反馈和 JavaScript 执行错误会帮助 GPT-4 改进程序。

左:环境反馈。GPT-4 意识到在制作木棒之前还需要 2 块木板。

右:执行错误。GPT-4 意识到它应该制作一把木斧，而不是一把「相思木」斧，因为 Minecraft 中并没有「相思木」斧。

通过提供智能体当前的状态和任务，GPT-4 会告诉程序是否完成了任务。

此外，如果任务失败了，GPT-4 还会提出批评，建议如何完成任务。

自我验证

其次，Voyager 通过在向量数据库中存储成功的程序，逐步建立一个技能库。每个程序可以通过其文档字符串的嵌入来检索。

复杂的技能是通过组合简单的技能来合成的，这会使 Voyager 的能力随着时间的推移迅速增长，并缓解灾难性遗忘。

上:添加技能。每个技能都由其描述的嵌入索引，可以在将来的类似情况中检索。

下:检索技能。当面对自动课程提出的新任务时，会进行查询并识别前 5 个相关技能。

第三，自动课程会根据智能体当前的技能水平和世界状态，提出合适的探索任务。

例如，如果它发现自己在沙漠而非森林中，就学习采集沙子和仙人掌，而不是铁。课程是由 GPT-4 基于「发现尽可能多样化的东西」这个目标生成的。

自动课程

作为第一个由 LLM 驱动、可以终身学习的具身智能体，Voyager 的训练过程和猩猩训练过程的相似之处，可以给我们许多启示。

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

猩猩学会玩《我的世界》，方法竟和GPT-4智能体相通？

今日报道

精彩热图

24小时新闻排行

最新文章