从 Genie 3 看世界模型的技术演进:我们离"AI 造世界"还有多远
最近 Google DeepMind 发布了 Project Genie,把 Genie 3 世界模型包装成了一个消费级产品。用户输入一段文字描述,系统就能生成一个可以用方向键探索的 3D 世界。
消息一出,讨论很多。有人惊叹于技术进步,有人质疑实用价值,也有人担心对游戏行业的冲击。
作为一个长期关注 AI 技术的开发者,我想从技术演进的角度聊聊世界模型这个方向。不吹不黑,尽量把技术逻辑讲清楚。
世界模型和视频生成有什么区别
很多人第一反应是:这不就是 Sora 的 3D 版吗?
其实不太一样。
Sora、Veo 这类视频生成模型,输出的是固定的视频流。你给一个提示词,它生成一段视频,从头到尾是定好的。你没法"进入"视频里面,也没法改变视频里发生的事情。
世界模型不同。它输出的是可交互的环境。你按下向左键,画面就向左变化。你按下向右键,画面就向右变化。每一帧都是根据你的操作实时生成的。
用一个不太精确的比喻:
- 视频生成像是 AI 给你拍了一部电影
- 世界模型像是 AI 给你造了一个梦境,你可以在里面走动
技术上,这个区别体现在模型需要学习的东西不一样。视频生成模型学的是"画面序列应该长什么样",世界模型学的是"当用户做某个动作时,画面应该怎么变化"。
后者需要理解因果关系,难度更大。
Genie 系列的技术演进
DeepMind 的 Genie 已经迭代了三代,每一代解决的问题不同。
Genie 1(2024 年初)
第一代 Genie 主要是验证可行性。论文的核心贡献是:证明可以从无标注的视频数据中学习世界模型。
当时的做法是用 2D 横版游戏的视频训练。模型有三个组件:
- 视频分词器(Video Tokenizer):把画面压缩成离散的 token
- 隐动作模型(Latent Action Model):从前后帧的变化推断"发生了什么动作"
- 动力学模型(Dynamics Model):根据当前帧和动作预测下一帧
这个架构后来成为世界模型的标准范式。
但 Genie 1 的效果很粗糙。分辨率低,一致性只能维持几秒,只能处理简单的 2D 游戏。
Genie 2(2024 年底)
第二代的重点是提升质量和扩展场景类型。
分辨率提高了,可以处理 3D 游戏风格的画面。一致性时长从几秒扩展到十几秒。训练数据也从 2D 游戏扩展到了 3D 游戏和真实世界视频。
但 Genie 2 还是不够快,没法实时交互。生成一帧需要的计算时间超过了帧间隔,所以只能用于离线生成。
Genie 3(2025 年)
第三代解决了实时性问题。
720p 分辨率,24 帧/秒,实时生成。一致性时长扩展到几分钟。这才达到了"可玩"的门槛。
还加了一个新功能叫"Promptable World Events":在探索过程中可以用文字改变世界状态,比如让天气变化、让新角色出现。
从 Genie 1 到 Genie 3,大概 18 个月的时间。进步速度是很快的。
技术上还有哪些硬骨头
虽然进步明显,但世界模型离"成熟"还有距离。几个核心难题:
记忆容量有限
当前的一致性时长是"几分钟"。这意味着如果你走得太远,再走回来,之前的场景可能已经变了。
这个限制来自模型的上下文窗口。Transformer 的注意力机制随序列长度平方增长,太长的历史放不下。
有一些解决思路,比如外部记忆、分层表示,但还没有成熟的方案。
物理一致性不可靠
世界模型的"物理"是从视频里学出来的,不是用物理引擎算出来的。
这导致它学到的是"统计意义上的物理":大多数情况下球会滚、水会流,但偶尔会出现反常情况。
对于娱乐应用可能还好,对于机器人训练这类需要可靠物理的场景,这是个问题。
动作空间太窄
现在只支持方向键。想让角色跳跃、攻击、拾取物品、和 NPC 对话,都做不到。
扩展动作空间需要更复杂的动作编码和更多的训练数据。这是工程和数据的问题,不是理论障碍,但需要时间。
生成不可控
同样的描述,每次生成结果不同。没法精确指定"我要一棵高 10 米的橡树在屏幕左边"。
对于需要精确控制的应用(比如游戏正式开发),这是硬伤。
开源社区的进展
DeepMind 的 Genie 不开源,但社区有一些复现尝试。
TinyWorlds
GitHub 上 star 最多的 Genie 复现项目。代码量不大,1000 多行,适合学习架构。效果和官方差很多,但能帮助理解原理。
GenieRedux
INSAIT 研究所的工作,发表在 CVPR 2025。提供了完整的训练框架、数据集(RetroAct,974 个标注的复古游戏)和探索智能体。
这是目前最完整的开源世界模型训练方案。如果想动手做研究,这是一个好起点。
差距在哪
开源实现和官方的差距主要在三个方面:
- 数据规模:DeepMind 用的是互联网规模的视频数据,开源项目用的是小数据集
- 计算资源:训练一个高质量的世界模型需要大量 GPU,这不是个人研究者能负担的
- 工程优化:实时推理需要很多工程技巧,这些在论文里通常不会详细写
短期内,开源社区很难追上官方。但作为研究工具和学习材料,这些项目是有价值的。
可能的应用方向
世界模型目前最清晰的应用方向是 AI Agent 的训练和测试。
思路很直接:Agent 需要在各种环境里练习。真实环境成本高、风险大。仿真环境需要手工搭建,费时费力。如果世界模型能根据描述自动生成环境,效率会高很多。
DeepMind 自己的 SIMA 项目就是这么用的。让 SIMA 在 Genie 生成的世界里执行导航任务,测试它的指令理解能力。
游戏开发领域,世界模型可能改变前期原型阶段的工作流。策划用文字描述想法,快速看到效果,验证可行性后再进入正式开发。
但要取代完整的游戏引擎,目前还差得远。物理不可靠、不可精确编辑、没有资产复用,这些都是硬限制。
教育培训也是一个可能的方向。需要多样化场景的培训(应急响应、医疗模拟等),用世界模型生成场景比传统建模更快。不过物理准确性是个问题,需要看具体场景的容忍度。
我的判断
世界模型是一个值得关注的技术方向,但目前还处于早期阶段。
对于开发者来说,现在是学习和观察的好时机,不是投入生产的时机。
建议:
- 读几篇论文,理解基本原理(Genie 1 的论文是个好起点)
- 跑一下 TinyWorlds 或 GenieRedux 的代码,有个直观感受
- 关注 DeepMind 和其他团队的后续发布,看技术迭代的速度
- 如果你在做 Agent 相关的工作,可以开始思考世界模型能怎么补充你的测试流程
技术在快速变化。18 个月前,Genie 1 还只是一个学术 demo。现在 Genie 3 已经可以实时交互了。再过 18 个月会怎样,很难预测。
保持关注,适时入场。
参考资料
- DeepMind Genie 3 技术博客:deepmind.google/blog/genie-3
- GenieRedux 论文:CVPR 2025
- TinyWorlds 仓库:github.com/AlmondGod/tinyworlds
我是 147AI 的技术分享者,专注于 AI 技术动态和开发实践。如果这篇文章对你有帮助,欢迎点赞和关注。