世界模型如何成为 AGI 的必经之路

Google 把 Genie 3 叫做"通向 AGI 的垫脚石"。这句话在发布会上一闪而过，但值得认真拆解一下。

从文本到世界

过去几年，大模型的训练数据主要是文本。互联网上的文章、书籍、代码、对话记录，这些构成了 GPT、Claude、Gemini 的知识基础。

文本数据有一个问题：它是二手的。

当你读到"杯子从桌上掉下来会摔碎"，你理解了这个事实。但这种理解是抽象的。你没有亲眼看到杯子落下的轨迹，没有听到碎裂的声音，没有试过用不同的力度推杯子会有什么不同的结果。

人类婴儿不是通过阅读学会理解物理世界的。他们扔东西，看东西落下，再扔一次，观察有什么不同。这种交互式的学习建立了直觉，而直觉是推理的基础。

一个显而易见的想法：让 AI 在模拟器里学习不就行了？

游戏引擎、物理模拟软件、机器人仿真环境，这些工具已经存在几十年了。确实有研究者用它们来训练 AI。DeepMind 的 AlphaGo 就是在围棋模拟器里自我对弈学会下棋的。

问题在于规模和多样性。

围棋规则是固定的，19x19 的棋盘，黑白两色的棋子，几百条规则。模拟一盘围棋很简单。但模拟一个厨房呢？里面有几百种物品，每种物品有不同的材质、重量、形状，物品之间可以发生上千种交互。建模这样一个环境需要大量人工。

更麻烦的是，你很难想到所有的边界情况。真实世界充满意外：地板湿滑、杯子有裂缝、猫突然跳上桌子。手工建模永远无法覆盖所有可能性。

世界模型换了一个思路：不去精确模拟物理规则，而是从视频数据中学习世界"看起来"是怎么运作的。

Genie 3 看过大量的游戏视频和真实世界视频。它学会了一些模式：球从高处落下会加速，人走路时身体会有规律地摆动，开门时门会绕着铰链旋转。这些模式不是程序员写进去的，而是从数据中涌现的。

这种学习方式有两个优势。

第一，它自动获得了多样性。训练数据里包含无数种环境：城市、森林、室内、室外、白天、黑夜。模型学到了一套通用的"世界运作方式"，而不是某个特定环境的规则。

第二，它自动包含了边界情况。真实视频里有各种意外：有人绊倒了，有东西突然掉下来，有车在路上抛锚。模型看过这些，就能在生成的世界里呈现类似的情况。

Genie 3 有一个功能叫"Promptable Events"：你可以在探索世界的过程中，随时输入新的指令改变环境。比如"开始下雨"，或者"一只狗跑过来"。

这个功能听起来像个噱头，但对 AI 训练意义重大。

想象你在训练一个自动驾驶 AI。它需要学会应对各种突发情况：前方突然出现行人、旁边的车突然变道、信号灯坏了。这些情况在真实道路上很少发生，收集足够的训练数据需要几百万公里的行驶。

有了 Promptable Events，你可以在虚拟环境里随意制造这些情况。"一个小孩突然从停着的车后面跑出来"——输入这句话，场景就出现了。AI 可以在安全的虚拟环境里反复练习应对。

当然，这个愿景面临很多质疑。

首先，生成的世界毕竟不是真实世界。物理规则是"看起来对"而不是"真的对"。一个在 Genie 生成的世界里训练出来的机器人，放到真实世界会不会出问题？

其次，视觉记忆的限制很严重。Genie 3 只能维持一分钟左右的场景一致性。这对于复杂的任务来说太短了。真正的 AGI 需要能够在一个环境里待上几小时甚至几天。

第三，计算成本问题。用世界模型来训练 AI Agent，每一步都需要生成一帧画面，这比在传统模拟器里计算要昂贵得多。

这些问题有没有解？老实说，现在没人知道。但 Google 显然认为值得继续投入。

我觉得世界模型的思路是对的，但 AGI 这个目标太遥远了，中间会发生什么很难预测。

更现实的期待是：世界模型会成为训练具身智能（embodied AI）的重要工具。机器人、自动驾驶、游戏 NPC，这些需要与环境交互的 AI，都可能从中受益。

至于 AGI？先把眼前的问题解决了再说吧。一分钟的记忆太短，720p 的分辨率太低，物理规则不够准确。这些都是实打实的工程问题，没有捷径可走。

Google 把 Genie 3 叫做"垫脚石"是合适的。垫脚石的意思是，它本身不是目的地，只是通往目的地的一步。至于目的地在哪里，还需要继续摸索。