世界模型的四个硬骨头：物理直觉、动作空间、多智能体、长链任务

Genie 3 的演示视频看起来惊艳：720p 实时交互，画面一致性保持几分钟，森林、海洋、火山什么场景都能生成。

但拿到测试权限的人开始真正上手之后，问题清单就出来了。

一位测试者在社交媒体上列了几条：物理实验会翻车，多角色互动不行，稍微复杂点的任务逻辑就崩，动作选项太少。

这不是抱怨，这是世界模型目前的能力边界。拆开来看看。

第一个硬骨头：物理直觉

测试者说他试了个经典的心理学实验：积木塔。堆一堆积木，然后看它怎么倒。

结果是：倒的方式不对。不是按照重力和碰撞该有的轨迹倒，而是以一种"视觉上大概像倒了"的方式变形。

这说明 Genie 3 学到的不是物理规律，而是"物理现象的视觉表征"。它见过很多视频里积木倒塌的样子，于是能画出看起来像倒塌的画面。但它没有真正理解质量、力矩、摩擦力这些概念。

对于"看起来像就行"的娱乐场景，这可能够用。但如果你想用世界模型训练机器人——机器人需要知道施加多大力会让物体怎样移动——这种伪物理就是个大坑。

Project Genie 目前支持的操作就是移动和转视角。WASD 加箭头键，完事。

你没法捡东西、开门、按按钮、使用工具。画面里可能有一扇门，但你走过去什么都不会发生，因为"开门"这个动作根本不在模型的输出空间里。

DeepMind 解释说，这是当前版本的设计限制。模型需要学习更多动作类型，这需要更多训练数据和更复杂的动作编码。

但这让 Genie 3 生成的世界目前只能"走走看看"。你在里面没法做事，只能观光。这和真正的游戏体验差距很大。

测试者试过让两个角色打架。1v1 格斗游戏那种。

不行。模型没法同时预测两个独立决策实体的行为和它们之间的互动结果。它可以画一个 NPC 站在那里，但这个 NPC 不会对你的动作做出合理反应。

这是个更深层的问题。世界模型目前的训练方式是"单视角观看视频"，视频里的其他角色都是背景，不是需要建模的独立智能体。要让多智能体互动工作，可能需要全新的训练范式。

"收集三把钥匙，打开三扇门，到达终点。"

这种小学生都能玩的任务链，Genie 3 做不到。

问题出在状态跟踪。模型需要记住"玩家目前有几把钥匙""哪扇门开过了"，然后根据这些状态决定画面该呈现什么。

但 Genie 3 的记忆是视觉级的，不是语义级的。它记得"之前这个位置大概长什么样"，但不记得"玩家做过哪些事导致世界状态发生了怎样的变化"。

你收集了一把钥匙，走远了再回来，那把钥匙可能又刷新了。因为模型"忘了"你拿过它。

长期看可能可以。短期内很难。

物理直觉可能需要引入显式的物理先验，而不是纯靠视频学。动作空间需要更丰富的训练数据和动作标注。多智能体可能需要多视角训练或者博弈论方法。长链任务需要某种形式的符号状态跟踪机制。

每一个都是研究级的难题。

如果你期待用 Genie 3 做的事情涉及上述四个硬骨头中的任何一个，目前答案是"做不到"。

它适合的场景是：生成一个漂亮的环境，走走看看，录一段 60 秒的视频。用来做概念验证、情绪板、气氛参考，问题不大。

用来做需要物理精度的仿真训练、需要复杂互动的游戏原型、需要任务逻辑的闯关设计——还早。

Genie 3 展示的是世界模型能做什么，同时也清晰地画出了它目前做不到什么的边界。这四个硬骨头会是未来几年这个领域最核心的研究方向。