从 Genie 3 看世界模型的技术演进：我们离"AI 造世界"还有多远

最近 Google DeepMind 发布了 Project Genie，把 Genie 3 世界模型包装成了一个消费级产品。用户输入一段文字描述，系统就能生成一个可以用方向键探索的 3D 世界。

消息一出，讨论很多。有人惊叹于技术进步，有人质疑实用价值，也有人担心对游戏行业的冲击。

作为一个长期关注 AI 技术的开发者，我想从技术演进的角度聊聊世界模型这个方向。不吹不黑，尽量把技术逻辑讲清楚。

世界模型和视频生成有什么区别

很多人第一反应是：这不就是 Sora 的 3D 版吗？

其实不太一样。

Sora、Veo 这类视频生成模型，输出的是固定的视频流。你给一个提示词，它生成一段视频，从头到尾是定好的。你没法"进入"视频里面，也没法改变视频里发生的事情。

世界模型不同。它输出的是可交互的环境。你按下向左键，画面就向左变化。你按下向右键，画面就向右变化。每一帧都是根据你的操作实时生成的。

用一个不太精确的比喻：

视频生成像是 AI 给你拍了一部电影
世界模型像是 AI 给你造了一个梦境，你可以在里面走动

技术上，这个区别体现在模型需要学习的东西不一样。视频生成模型学的是"画面序列应该长什么样"，世界模型学的是"当用户做某个动作时，画面应该怎么变化"。

后者需要理解因果关系，难度更大。

Genie 系列的技术演进

DeepMind 的 Genie 已经迭代了三代，每一代解决的问题不同。

Genie 1（2024 年初）

第一代 Genie 主要是验证可行性。论文的核心贡献是：证明可以从无标注的视频数据中学习世界模型。

当时的做法是用 2D 横版游戏的视频训练。模型有三个组件：

视频分词器（Video Tokenizer）：把画面压缩成离散的 token
隐动作模型（Latent Action Model）：从前后帧的变化推断"发生了什么动作"
动力学模型（Dynamics Model）：根据当前帧和动作预测下一帧

这个架构后来成为世界模型的标准范式。

但 Genie 1 的效果很粗糙。分辨率低，一致性只能维持几秒，只能处理简单的 2D 游戏。

Genie 2（2024 年底）

第二代的重点是提升质量和扩展场景类型。

分辨率提高了，可以处理 3D 游戏风格的画面。一致性时长从几秒扩展到十几秒。训练数据也从 2D 游戏扩展到了 3D 游戏和真实世界视频。

但 Genie 2 还是不够快，没法实时交互。生成一帧需要的计算时间超过了帧间隔，所以只能用于离线生成。

Genie 3（2025 年）

第三代解决了实时性问题。

720p 分辨率，24 帧/秒，实时生成。一致性时长扩展到几分钟。这才达到了"可玩"的门槛。

还加了一个新功能叫"Promptable World Events"：在探索过程中可以用文字改变世界状态，比如让天气变化、让新角色出现。

从 Genie 1 到 Genie 3，大概 18 个月的时间。进步速度是很快的。

技术上还有哪些硬骨头

虽然进步明显，但世界模型离"成熟"还有距离。几个核心难题：

记忆容量有限

当前的一致性时长是"几分钟"。这意味着如果你走得太远，再走回来，之前的场景可能已经变了。

这个限制来自模型的上下文窗口。Transformer 的注意力机制随序列长度平方增长，太长的历史放不下。

有一些解决思路，比如外部记忆、分层表示，但还没有成熟的方案。

物理一致性不可靠

世界模型的"物理"是从视频里学出来的，不是用物理引擎算出来的。

这导致它学到的是"统计意义上的物理"：大多数情况下球会滚、水会流，但偶尔会出现反常情况。

对于娱乐应用可能还好，对于机器人训练这类需要可靠物理的场景，这是个问题。

动作空间太窄

现在只支持方向键。想让角色跳跃、攻击、拾取物品、和 NPC 对话，都做不到。

扩展动作空间需要更复杂的动作编码和更多的训练数据。这是工程和数据的问题，不是理论障碍，但需要时间。

生成不可控

同样的描述，每次生成结果不同。没法精确指定"我要一棵高 10 米的橡树在屏幕左边"。

对于需要精确控制的应用（比如游戏正式开发），这是硬伤。

开源社区的进展

DeepMind 的 Genie 不开源，但社区有一些复现尝试。

TinyWorlds

GitHub 上 star 最多的 Genie 复现项目。代码量不大，1000 多行，适合学习架构。效果和官方差很多，但能帮助理解原理。

GenieRedux

INSAIT 研究所的工作，发表在 CVPR 2025。提供了完整的训练框架、数据集（RetroAct，974 个标注的复古游戏）和探索智能体。

这是目前最完整的开源世界模型训练方案。如果想动手做研究，这是一个好起点。

差距在哪

开源实现和官方的差距主要在三个方面：

数据规模：DeepMind 用的是互联网规模的视频数据，开源项目用的是小数据集
计算资源：训练一个高质量的世界模型需要大量 GPU，这不是个人研究者能负担的
工程优化：实时推理需要很多工程技巧，这些在论文里通常不会详细写

短期内，开源社区很难追上官方。但作为研究工具和学习材料，这些项目是有价值的。

可能的应用方向

世界模型目前最清晰的应用方向是 AI Agent 的训练和测试。

思路很直接：Agent 需要在各种环境里练习。真实环境成本高、风险大。仿真环境需要手工搭建，费时费力。如果世界模型能根据描述自动生成环境，效率会高很多。

DeepMind 自己的 SIMA 项目就是这么用的。让 SIMA 在 Genie 生成的世界里执行导航任务，测试它的指令理解能力。

游戏开发领域，世界模型可能改变前期原型阶段的工作流。策划用文字描述想法，快速看到效果，验证可行性后再进入正式开发。

但要取代完整的游戏引擎，目前还差得远。物理不可靠、不可精确编辑、没有资产复用，这些都是硬限制。

教育培训也是一个可能的方向。需要多样化场景的培训（应急响应、医疗模拟等），用世界模型生成场景比传统建模更快。不过物理准确性是个问题，需要看具体场景的容忍度。

我的判断

世界模型是一个值得关注的技术方向，但目前还处于早期阶段。

对于开发者来说，现在是学习和观察的好时机，不是投入生产的时机。

建议：

读几篇论文，理解基本原理（Genie 1 的论文是个好起点）
跑一下 TinyWorlds 或 GenieRedux 的代码，有个直观感受
关注 DeepMind 和其他团队的后续发布，看技术迭代的速度
如果你在做 Agent 相关的工作，可以开始思考世界模型能怎么补充你的测试流程

技术在快速变化。18 个月前，Genie 1 还只是一个学术 demo。现在 Genie 3 已经可以实时交互了。再过 18 个月会怎样，很难预测。

保持关注，适时入场。

参考资料

DeepMind Genie 3 技术博客：deepmind.google/blog/genie-3
GenieRedux 论文：CVPR 2025
TinyWorlds 仓库：github.com/AlmondGod/tinyworlds

我是 147AI 的技术分享者，专注于 AI 技术动态和开发实践。如果这篇文章对你有帮助，欢迎点赞和关注。