10 分钟看懂世界模型：Genie 3 到底和 Sora/Veo 有什么不一样

最近 Google DeepMind 放出了 Genie 3，配套的 Project Genie 也开始向付费用户开放。社交媒体上一片"游戏引擎要被干掉"的声音。

但等等，这玩意儿和 OpenAI 的 Sora、Google 自家的 Veo 有什么区别？都是生成视频，凭什么 Genie 要单独叫"世界模型"？

先说结论：能不能按键盘

Sora 和 Veo 生成的是视频——你输入提示词，它输出一段固定的影像。你没法中途说"往左走"然后看到画面真的往左转。

Genie 3 不一样。它生成的东西可以用键盘鼠标操控。你按 W 键，画面里的角色就往前走；你转鼠标，视角就跟着转。这不是预渲染好的多分支视频，而是模型在实时预测"如果你做这个动作，世界会变成什么样"。

这就是"世界模型"这个名字的来源。它不只是在画画面，而是在模拟一个可以被你的行为改变的环境。

传统视频生成模型的任务是：给定文字描述，生成一段视觉上合理的连续画面。

世界模型的任务多了一层：给定当前状态和你的动作，预测下一帧会是什么样。然后把这个预测当作新的"当前状态"，继续预测下一帧。循环往复。

Genie 3 能做到 720p、约 24 帧每秒的实时交互，而且画面一致性可以保持几分钟。这意味着你往前走一分钟再回头，刚才经过的那棵树还在原来的位置。

这个"记得之前发生了什么"的能力，在技术上叫时序一致性。Genie 2 只能撑几十秒，Genie 3 把这个时间推到了分钟级。

如果你只是想生成一段宣传片，Sora 和 Veo 够用了。但如果你想让 AI 代理在一个环境里学习怎么完成任务，你需要一个可以被行动影响的环境。

比如训练一个机器人倒水：它需要能"试着倒"，然后看到水洒了或者成功了，再调整策略。这就需要一个能响应动作的模拟环境。

DeepMind 在博客里直接说，Genie 3 是通往 AGI 的一块踏脚石。理由是：真正的智能代理需要能在无限多样的环境里练习，而世界模型可以凭空生成这些环境。

说完好话，说说不好的。

Genie 3 目前的动作空间很窄——基本就是移动和转视角。你没法捡东西、开门、射击。物理模拟也不太靠谱，测试者说堆积木塌的方式很不自然。多个独立角色的互动更是灾难。

另外，Project Genie 每次只能跑 60 秒。60 秒后世界就结束了，你得重新生成。这个限制一部分是技术原因（一致性再往后就崩了），一部分是成本原因（实时生成 720p 视频帧的算力不便宜）。

有人问：这会取代 Unreal 和 Unity 吗？

短期内不会。游戏引擎里的物理是确定性的，你撞墙就是撞墙，不会随机穿过去。世界模型是概率性的，它预测的是"最可能"的下一帧，偶尔会出现道路突然变成草地这种穿帮。

但长期看，世界模型可能改变游戏开发的流程。用它快速生成环境原型，验证玩法感觉，然后再用传统引擎做正式版本。

世界模型的核心价值不在于"能生成好看的画面"，而在于"能响应行动并保持一致"。这让它可以成为 AI 代理的训练场，而不只是内容创作工具。

目前 Project Genie 只对美国的 AI Ultra 订阅用户开放，每月 250 美元。如果你只是好奇想体验一下，可能要再等等普及版本。