世界模型的四个硬骨头:物理直觉、动作空间、多智能体、长链任务
Genie 3 的演示视频看起来惊艳:720p 实时交互,画面一致性保持几分钟,森林、海洋、火山什么场景都能生成。
但拿到测试权限的人开始真正上手之后,问题清单就出来了。
一位测试者在社交媒体上列了几条:物理实验会翻车,多角色互动不行,稍微复杂点的任务逻辑就崩,动作选项太少。
这不是抱怨,这是世界模型目前的能力边界。拆开来看看。
第一个硬骨头:物理直觉
测试者说他试了个经典的心理学实验:积木塔。堆一堆积木,然后看它怎么倒。
结果是:倒的方式不对。不是按照重力和碰撞该有的轨迹倒,而是以一种"视觉上大概像倒了"的方式变形。
这说明 Genie 3 学到的不是物理规律,而是"物理现象的视觉表征"。它见过很多视频里积木倒塌的样子,于是能画出看起来像倒塌的画面。但它没有真正理解质量、力矩、摩擦力这些概念。
对于"看起来像就行"的娱乐场景,这可能够用。但如果你想用世界模型训练机器人——机器人需要知道施加多大力会让物体怎样移动——这种伪物理就是个大坑。
第二个硬骨头:动作空间
Project Genie 目前支持的操作就是移动和转视角。WASD 加箭头键,完事。
你没法捡东西、开门、按按钮、使用工具。画面里可能有一扇门,但你走过去什么都不会发生,因为"开门"这个动作根本不在模型的输出空间里。
DeepMind 解释说,这是当前版本的设计限制。模型需要学习更多动作类型,这需要更多训练数据和更复杂的动作编码。
但这让 Genie 3 生成的世界目前只能"走走看看"。你在里面没法做事,只能观光。这和真正的游戏体验差距很大。
第三个硬骨头:多智能体互动
测试者试过让两个角色打架。1v1 格斗游戏那种。
不行。模型没法同时预测两个独立决策实体的行为和它们之间的互动结果。它可以画一个 NPC 站在那里,但这个 NPC 不会对你的动作做出合理反应。
这是个更深层的问题。世界模型目前的训练方式是"单视角观看视频",视频里的其他角色都是背景,不是需要建模的独立智能体。要让多智能体互动工作,可能需要全新的训练范式。
第四个硬骨头:长链任务逻辑
"收集三把钥匙,打开三扇门,到达终点。"
这种小学生都能玩的任务链,Genie 3 做不到。
问题出在状态跟踪。模型需要记住"玩家目前有几把钥匙""哪扇门开过了",然后根据这些状态决定画面该呈现什么。
但 Genie 3 的记忆是视觉级的,不是语义级的。它记得"之前这个位置大概长什么样",但不记得"玩家做过哪些事导致世界状态发生了怎样的变化"。
你收集了一把钥匙,走远了再回来,那把钥匙可能又刷新了。因为模型"忘了"你拿过它。
这些问题能解决吗
长期看可能可以。短期内很难。
物理直觉可能需要引入显式的物理先验,而不是纯靠视频学。动作空间需要更丰富的训练数据和动作标注。多智能体可能需要多视角训练或者博弈论方法。长链任务需要某种形式的符号状态跟踪机制。
每一个都是研究级的难题。
对使用者的意义
如果你期待用 Genie 3 做的事情涉及上述四个硬骨头中的任何一个,目前答案是"做不到"。
它适合的场景是:生成一个漂亮的环境,走走看看,录一段 60 秒的视频。用来做概念验证、情绪板、气氛参考,问题不大。
用来做需要物理精度的仿真训练、需要复杂互动的游戏原型、需要任务逻辑的闯关设计——还早。
Genie 3 展示的是世界模型能做什么,同时也清晰地画出了它目前做不到什么的边界。这四个硬骨头会是未来几年这个领域最核心的研究方向。