从 GenieRedux 到 Genie 3:中间差了什么

从 GenieRedux 到 Genie 3:中间差了什么

两个项目的定位

GenieRedux 是 INSAIT 研究所的开源项目,发了 CVPR 2025。代码开源,数据集开源,能在本地跑。

Genie 3 是 DeepMind 的商业项目,只有技术报告,没有代码,没有数据集。

一个是学术界能复现的 baseline,一个是工业界的天花板。中间差多远?

分辨率的鸿沟

GenieRedux 输出 64x64 像素。你没看错,64x64。

Genie 3 输出 720p,也就是 1280x720。

像素数差 200 倍。

为什么差这么多?不是 INSAIT 不想做高分辨率,是做不起。

高分辨率意味着更大的模型。每帧的 token 数量按像素的平方增长。64x64 压缩成 8x8 的 token 网格,720p 压缩后 token 数量是前者的几十倍。

更大的模型需要更多的显存、更长的训练时间、更多的数据。这些都是要花钱的。

DeepMind 有预算,学术界没有。

一致性时长

GenieRedux 能维持几秒的场景一致性。时间再长,画面就开始"漂移",之前生成的东西慢慢变样。

Genie 3 声称能维持几分钟。我没机会验证超过 60 秒的情况(产品限制了),但 60 秒内确实没看到明显漂移。

这个差距来自两方面:

一是模型容量。更大的模型能记住更多上下文。

二是训练目标。DeepMind 可能专门针对长距离一致性设计了 loss function。学术论文一般不会花这么多精力调这种细节。

泛化能力

GenieRedux 只能在训练过的游戏类型上工作。你拿一个 NES 风格的游戏训练,它只能生成类似 NES 的画面。给它一个"火星表面探索"的 prompt,它做不到。

Genie 3 号称能生成任意描述的环境。从"废弃工厂"到"火山口"到"龙的巢穴",文字描述什么它就生成什么。

这个能力来自训练数据的多样性。GenieRedux 用的是 RetroAct 数据集,974 个复古游戏。Genie 3 用的是"互联网规模的视频数据",具体多少不知道,但肯定是百万级别的小时数。

数据规模差三个数量级以上。

动作空间

GenieRedux 支持简单的方向键输入。上下左右,四个动作。

Genie 3 也是类似的,WASD 加鼠标视角控制。

这方面两者差距不大。都是很有限的动作空间。

复杂的交互,比如抓取物体、开门、和 NPC 对话,两个都做不到。这是世界模型普遍的短板,不是某一家的问题。

推理速度

GenieRedux 在单卡 GPU 上推理速度不快。论文里没给具体数字,我跑了一下,生成一帧要几百毫秒。达不到实时。

Genie 3 跑在 Google 的 TPU 集群上,能做到 24fps 实时生成。

这个差距主要来自工程优化和硬件投入。

学术代码通常不做太多推理优化。能跑通就行,速度是其次的。

工业产品要上线服务用户,推理速度是硬指标。Google 有专门团队做模型加速、量化、分布式推理。

能不能追上

老实说,学术界很难追上 Genie 3 的水平。

不是智力差距,是资源差距。

训练一个 720p、分钟级一致性的世界模型,需要的算力是天文数字。Google 有 TPU pod,学术组没有。

用开源数据集能达到的上限就是 GenieRedux 这个水平。想往上走,需要自己造数据或者付费买数据。这都是钱。

对研究者的价值

GenieRedux 的价值不在于它的效果,而在于它告诉你这东西怎么做。

Video Tokenizer 怎么训练?论文里写了,代码里有。

Dynamics Model 用什么架构?MaskGIT 风格的 Transformer,代码能跑。

AutoExplore Agent 怎么收集数据?不确定性驱动探索,代码也有。

这些模块化的思路是通用的。你可以在这个基础上改进单个组件,发自己的论文。

想要工业级效果,去 Google 工作。想做研究出论文,GenieRedux 够用了。

什么时候差距会缩小

开源大模型的经验表明:工业界领先几年,学术界慢慢追上来。

GPT-3 发布的时候,学术界离它很远。三年后 LLaMA 出来了,差距大大缩小。

世界模型可能也会走类似的路。Meta 或者哪个大厂如果决定开源一个强力的世界模型,局面会不一样。

但目前没看到这个迹象。DeepMind 不开源,OpenAI 的 Sora 也没开源。大家都在等对方先动。

个人研究者能做什么

如果你想入门世界模型研究:

从 GenieRedux 代码开始,跑通整个训练流程,理解每个组件的作用。

尝试改进单个组件。比如换一个更好的 tokenizer,或者改进探索策略。

在特定垂直领域做到比通用模型更好。比如专门做某类游戏的世界模型,数据更干净,效果可能比 Genie 3 在这个子领域更好。

不要试图在通用性上和 Google 竞争。资源不对等的战斗打不赢。

找到自己的生态位,在局部取胜。

← 返回博客列表