从 GenieRedux 到 Genie 3：中间差了什么

两个项目的定位

GenieRedux 是 INSAIT 研究所的开源项目，发了 CVPR 2025。代码开源，数据集开源，能在本地跑。

Genie 3 是 DeepMind 的商业项目，只有技术报告，没有代码，没有数据集。

一个是学术界能复现的 baseline，一个是工业界的天花板。中间差多远？

分辨率的鸿沟

GenieRedux 输出 64x64 像素。你没看错，64x64。

Genie 3 输出 720p，也就是 1280x720。

像素数差 200 倍。

为什么差这么多？不是 INSAIT 不想做高分辨率，是做不起。

高分辨率意味着更大的模型。每帧的 token 数量按像素的平方增长。64x64 压缩成 8x8 的 token 网格，720p 压缩后 token 数量是前者的几十倍。

更大的模型需要更多的显存、更长的训练时间、更多的数据。这些都是要花钱的。

DeepMind 有预算，学术界没有。

一致性时长

GenieRedux 能维持几秒的场景一致性。时间再长，画面就开始"漂移"，之前生成的东西慢慢变样。

Genie 3 声称能维持几分钟。我没机会验证超过 60 秒的情况（产品限制了），但 60 秒内确实没看到明显漂移。

这个差距来自两方面：

一是模型容量。更大的模型能记住更多上下文。

二是训练目标。DeepMind 可能专门针对长距离一致性设计了 loss function。学术论文一般不会花这么多精力调这种细节。

泛化能力

GenieRedux 只能在训练过的游戏类型上工作。你拿一个 NES 风格的游戏训练，它只能生成类似 NES 的画面。给它一个"火星表面探索"的 prompt，它做不到。

Genie 3 号称能生成任意描述的环境。从"废弃工厂"到"火山口"到"龙的巢穴"，文字描述什么它就生成什么。

这个能力来自训练数据的多样性。GenieRedux 用的是 RetroAct 数据集，974 个复古游戏。Genie 3 用的是"互联网规模的视频数据"，具体多少不知道，但肯定是百万级别的小时数。

数据规模差三个数量级以上。

动作空间

GenieRedux 支持简单的方向键输入。上下左右，四个动作。

Genie 3 也是类似的，WASD 加鼠标视角控制。

这方面两者差距不大。都是很有限的动作空间。

复杂的交互，比如抓取物体、开门、和 NPC 对话，两个都做不到。这是世界模型普遍的短板，不是某一家的问题。

推理速度

GenieRedux 在单卡 GPU 上推理速度不快。论文里没给具体数字，我跑了一下，生成一帧要几百毫秒。达不到实时。

Genie 3 跑在 Google 的 TPU 集群上，能做到 24fps 实时生成。

这个差距主要来自工程优化和硬件投入。

学术代码通常不做太多推理优化。能跑通就行，速度是其次的。

工业产品要上线服务用户，推理速度是硬指标。Google 有专门团队做模型加速、量化、分布式推理。

能不能追上

老实说，学术界很难追上 Genie 3 的水平。

不是智力差距，是资源差距。

训练一个 720p、分钟级一致性的世界模型，需要的算力是天文数字。Google 有 TPU pod，学术组没有。

用开源数据集能达到的上限就是 GenieRedux 这个水平。想往上走，需要自己造数据或者付费买数据。这都是钱。

对研究者的价值

GenieRedux 的价值不在于它的效果，而在于它告诉你这东西怎么做。

Video Tokenizer 怎么训练？论文里写了，代码里有。

Dynamics Model 用什么架构？MaskGIT 风格的 Transformer，代码能跑。

AutoExplore Agent 怎么收集数据？不确定性驱动探索，代码也有。

这些模块化的思路是通用的。你可以在这个基础上改进单个组件，发自己的论文。

想要工业级效果，去 Google 工作。想做研究出论文，GenieRedux 够用了。

什么时候差距会缩小

开源大模型的经验表明：工业界领先几年，学术界慢慢追上来。

GPT-3 发布的时候，学术界离它很远。三年后 LLaMA 出来了，差距大大缩小。

世界模型可能也会走类似的路。Meta 或者哪个大厂如果决定开源一个强力的世界模型，局面会不一样。

但目前没看到这个迹象。DeepMind 不开源，OpenAI 的 Sora 也没开源。大家都在等对方先动。

个人研究者能做什么

如果你想入门世界模型研究：

从 GenieRedux 代码开始，跑通整个训练流程，理解每个组件的作用。

尝试改进单个组件。比如换一个更好的 tokenizer，或者改进探索策略。

在特定垂直领域做到比通用模型更好。比如专门做某类游戏的世界模型，数据更干净，效果可能比 Genie 3 在这个子领域更好。

不要试图在通用性上和 Google 竞争。资源不对等的战斗打不赢。

找到自己的生态位，在局部取胜。