世界模型如何成为 AGI 的必经之路
Google 把 Genie 3 叫做"通向 AGI 的垫脚石"。这句话在发布会上一闪而过,但值得认真拆解一下。
从文本到世界
过去几年,大模型的训练数据主要是文本。互联网上的文章、书籍、代码、对话记录,这些构成了 GPT、Claude、Gemini 的知识基础。
文本数据有一个问题:它是二手的。
当你读到"杯子从桌上掉下来会摔碎",你理解了这个事实。但这种理解是抽象的。你没有亲眼看到杯子落下的轨迹,没有听到碎裂的声音,没有试过用不同的力度推杯子会有什么不同的结果。
人类婴儿不是通过阅读学会理解物理世界的。他们扔东西,看东西落下,再扔一次,观察有什么不同。这种交互式的学习建立了直觉,而直觉是推理的基础。
模拟器的局限
一个显而易见的想法:让 AI 在模拟器里学习不就行了?
游戏引擎、物理模拟软件、机器人仿真环境,这些工具已经存在几十年了。确实有研究者用它们来训练 AI。DeepMind 的 AlphaGo 就是在围棋模拟器里自我对弈学会下棋的。
问题在于规模和多样性。
围棋规则是固定的,19x19 的棋盘,黑白两色的棋子,几百条规则。模拟一盘围棋很简单。但模拟一个厨房呢?里面有几百种物品,每种物品有不同的材质、重量、形状,物品之间可以发生上千种交互。建模这样一个环境需要大量人工。
更麻烦的是,你很难想到所有的边界情况。真实世界充满意外:地板湿滑、杯子有裂缝、猫突然跳上桌子。手工建模永远无法覆盖所有可能性。
世界模型的承诺
世界模型换了一个思路:不去精确模拟物理规则,而是从视频数据中学习世界"看起来"是怎么运作的。
Genie 3 看过大量的游戏视频和真实世界视频。它学会了一些模式:球从高处落下会加速,人走路时身体会有规律地摆动,开门时门会绕着铰链旋转。这些模式不是程序员写进去的,而是从数据中涌现的。
这种学习方式有两个优势。
第一,它自动获得了多样性。训练数据里包含无数种环境:城市、森林、室内、室外、白天、黑夜。模型学到了一套通用的"世界运作方式",而不是某个特定环境的规则。
第二,它自动包含了边界情况。真实视频里有各种意外:有人绊倒了,有东西突然掉下来,有车在路上抛锚。模型看过这些,就能在生成的世界里呈现类似的情况。
Promptable Events 的意义
Genie 3 有一个功能叫"Promptable Events":你可以在探索世界的过程中,随时输入新的指令改变环境。比如"开始下雨",或者"一只狗跑过来"。
这个功能听起来像个噱头,但对 AI 训练意义重大。
想象你在训练一个自动驾驶 AI。它需要学会应对各种突发情况:前方突然出现行人、旁边的车突然变道、信号灯坏了。这些情况在真实道路上很少发生,收集足够的训练数据需要几百万公里的行驶。
有了 Promptable Events,你可以在虚拟环境里随意制造这些情况。"一个小孩突然从停着的车后面跑出来"——输入这句话,场景就出现了。AI 可以在安全的虚拟环境里反复练习应对。
质疑声
当然,这个愿景面临很多质疑。
首先,生成的世界毕竟不是真实世界。物理规则是"看起来对"而不是"真的对"。一个在 Genie 生成的世界里训练出来的机器人,放到真实世界会不会出问题?
其次,视觉记忆的限制很严重。Genie 3 只能维持一分钟左右的场景一致性。这对于复杂的任务来说太短了。真正的 AGI 需要能够在一个环境里待上几小时甚至几天。
第三,计算成本问题。用世界模型来训练 AI Agent,每一步都需要生成一帧画面,这比在传统模拟器里计算要昂贵得多。
这些问题有没有解?老实说,现在没人知道。但 Google 显然认为值得继续投入。
我的看法
我觉得世界模型的思路是对的,但 AGI 这个目标太遥远了,中间会发生什么很难预测。
更现实的期待是:世界模型会成为训练具身智能(embodied AI)的重要工具。机器人、自动驾驶、游戏 NPC,这些需要与环境交互的 AI,都可能从中受益。
至于 AGI?先把眼前的问题解决了再说吧。一分钟的记忆太短,720p 的分辨率太低,物理规则不够准确。这些都是实打实的工程问题,没有捷径可走。
Google 把 Genie 3 叫做"垫脚石"是合适的。垫脚石的意思是,它本身不是目的地,只是通往目的地的一步。至于目的地在哪里,还需要继续摸索。