10 分钟看懂世界模型:Genie 3 到底和 Sora/Veo 有什么不一样

10 分钟看懂世界模型:Genie 3 到底和 Sora/Veo 有什么不一样

最近 Google DeepMind 放出了 Genie 3,配套的 Project Genie 也开始向付费用户开放。社交媒体上一片"游戏引擎要被干掉"的声音。

但等等,这玩意儿和 OpenAI 的 Sora、Google 自家的 Veo 有什么区别?都是生成视频,凭什么 Genie 要单独叫"世界模型"?

先说结论:能不能按键盘

Sora 和 Veo 生成的是视频——你输入提示词,它输出一段固定的影像。你没法中途说"往左走"然后看到画面真的往左转。

Genie 3 不一样。它生成的东西可以用键盘鼠标操控。你按 W 键,画面里的角色就往前走;你转鼠标,视角就跟着转。这不是预渲染好的多分支视频,而是模型在实时预测"如果你做这个动作,世界会变成什么样"。

这就是"世界模型"这个名字的来源。它不只是在画画面,而是在模拟一个可以被你的行为改变的环境。

技术上到底在干嘛

传统视频生成模型的任务是:给定文字描述,生成一段视觉上合理的连续画面。

世界模型的任务多了一层:给定当前状态和你的动作,预测下一帧会是什么样。然后把这个预测当作新的"当前状态",继续预测下一帧。循环往复。

Genie 3 能做到 720p、约 24 帧每秒的实时交互,而且画面一致性可以保持几分钟。这意味着你往前走一分钟再回头,刚才经过的那棵树还在原来的位置。

这个"记得之前发生了什么"的能力,在技术上叫时序一致性。Genie 2 只能撑几十秒,Genie 3 把这个时间推到了分钟级。

为什么这件事重要

如果你只是想生成一段宣传片,Sora 和 Veo 够用了。但如果你想让 AI 代理在一个环境里学习怎么完成任务,你需要一个可以被行动影响的环境。

比如训练一个机器人倒水:它需要能"试着倒",然后看到水洒了或者成功了,再调整策略。这就需要一个能响应动作的模拟环境。

DeepMind 在博客里直接说,Genie 3 是通往 AGI 的一块踏脚石。理由是:真正的智能代理需要能在无限多样的环境里练习,而世界模型可以凭空生成这些环境。

目前的限制

说完好话,说说不好的。

Genie 3 目前的动作空间很窄——基本就是移动和转视角。你没法捡东西、开门、射击。物理模拟也不太靠谱,测试者说堆积木塌的方式很不自然。多个独立角色的互动更是灾难。

另外,Project Genie 每次只能跑 60 秒。60 秒后世界就结束了,你得重新生成。这个限制一部分是技术原因(一致性再往后就崩了),一部分是成本原因(实时生成 720p 视频帧的算力不便宜)。

和游戏引擎的关系

有人问:这会取代 Unreal 和 Unity 吗?

短期内不会。游戏引擎里的物理是确定性的,你撞墙就是撞墙,不会随机穿过去。世界模型是概率性的,它预测的是"最可能"的下一帧,偶尔会出现道路突然变成草地这种穿帮。

但长期看,世界模型可能改变游戏开发的流程。用它快速生成环境原型,验证玩法感觉,然后再用传统引擎做正式版本。

总结一下

  • Sora/Veo:文字 → 视频。你看,没法互动
  • Genie 3:文字 + 你的动作 → 实时变化的画面。你玩,能互动

世界模型的核心价值不在于"能生成好看的画面",而在于"能响应行动并保持一致"。这让它可以成为 AI 代理的训练场,而不只是内容创作工具。

目前 Project Genie 只对美国的 AI Ultra 订阅用户开放,每月 250 美元。如果你只是好奇想体验一下,可能要再等等普及版本。

← 返回博客列表