世界模型的记忆困境：一分钟限制说明了什么

Genie 3 的视觉记忆能维持"数分钟"。听起来比 Genie 2 的 10 秒强多了，但放到实际使用场景里，这个时长仍然很短。

这个限制不是简单的工程问题，它揭示了当前世界模型的一个根本挑战。

记忆漂移是什么样子

在 Genie 3 生成的世界里走上两三分钟，然后回到起点。你会发现一些微妙的变化。

门的位置可能偏移了几厘米。墙上的画变成了不同的图案。窗户外的天色从傍晚变成了正午。有时候整个房间的布局都会有轻微的调整。

这不是 bug，而是这类系统的固有特性。模型没有存储场景的精确状态，它只是"大致记得"场景应该是什么样子。时间越长，"大致"的误差就越大。

传统 3D 游戏的场景数据存储在内存里。每个物体的位置精确到浮点数，不会随着时间变化。你走开再回来，一切都原封不动。

Genie 3 不存储精确数据。它用一种压缩的"潜在表示"（latent representation）来记录场景状态。这种表示能捕捉场景的主要特征——这里有扇门、那边有棵树——但不会记住所有细节。

当你探索新区域时，模型要在有限的"记忆容量"里同时存储旧区域和新区域的信息。容量不够用时，一些细节就会被丢弃或混淆。

这有点像人的记忆。你能记住一个房间的大致布局，但可能记不清每件家具的精确位置。时间越久，记忆越模糊。

一个显而易见的想法：加大模型的记忆容量不就行了？

技术上可以做到，但代价很高。

记忆容量加倍意味着计算量大致也要加倍。Genie 3 已经需要强大的硬件才能做到 720p 24fps 的实时输出。进一步提高规格会突破当前硬件的能力边界，或者让成本变得不可接受。

还有一个更根本的问题：即使容量增加，也只是推迟问题而不是解决问题。记忆从 3 分钟变成 30 分钟，仍然不够一个完整的游戏关卡。而且随着场景变大，需要记住的细节呈指数增长。

研究者们尝试过一些不同的思路。

分层记忆：把场景分成多个区块，只对当前区块附近保持高精度记忆，远处的区块只保留粗略信息。这类似于游戏里的 LOD（Level of Detail）技术，但应用在记忆而不是渲染上。

外部存储：把场景状态写入外部数据库，需要时再读取。这样记忆容量就不受模型本身限制了。问题是读写操作会引入延迟，影响实时性。

混合方案：用神经网络生成大致场景，再叠加一层精确的状态记录。比如记住"门是开的还是关的"这类关键状态，让神经网络负责填充视觉细节。

这些方案都有各自的权衡，目前没有哪个能完美解决问题。

记忆限制决定了 Genie 3 适合什么、不适合什么。

适合：短时间的体验、快速原型验证、小尺度的场景探索。比如花一分钟看看一个房间的设计感觉如何。

不适合：长时间的游戏、大规模的开放世界、需要玩家记住位置和状态的谜题。比如 Zelda 那种需要来回跑的地牢设计。

训练 AI Agent 也受影响。如果 Agent 需要在一个环境里学习几小时，环境本身就在变化，学到的东西会有噪声。短期任务还好，长期规划会变得很难。

有趣的是，人脑也有类似的问题。心理学实验表明，人对场景的记忆并不像照片那样精确。我们会记住主要物体和空间关系，但细节经常出错。

区别在于，人脑有其他方式补偿这个缺陷。我们会特别注意对任务重要的信息，会用语言给场景"标注"，会在需要时主动回去再看一眼。

目前的世界模型没有这种选择性注意机制。它对所有信息一视同仁地"记住"或"遗忘"。如果能学会区分什么重要、什么不重要，记忆效率可能会大幅提升。

这是一个研究方向，但还没有成熟的解决方案。

Google 把 Genie 3 放进了 $250/月的订阅服务里。这意味着它认为产品已经足够成熟，可以向付费用户提供。

但记忆限制这个问题不是用营销语言能掩盖的。用户花钱买了一个"世界生成器"，发现生成的世界只能维持一分钟，肯定会有落差感。

从公开评价看，很多用户确实提到了这一点。"好玩但不实用"是常见的评价。

Google 可能赌的是：先让用户体验到潜力，建立认知和习惯，等技术进步了再提供更完整的版本。这种策略有风险——如果用户第一印象太差，可能不会再给第二次机会。

记忆限制是世界模型当前最大的短板。它不仅影响用户体验，还限制了应用场景，让很多有潜力的想法无法实现。

解决这个问题需要的不只是更大的模型或更快的硬件。可能需要根本性的架构创新——比如结合神经网络和符号系统的优势，或者引入选择性注意机制。

现阶段，把 Genie 3 当作一个"短期体验生成器"而不是"持久世界构建器"会更合适。在这个定位下，它已经做得不错。但如果期待更多，就要做好等待的准备。

记忆问题不是几个月能解决的。可能需要一两年，也可能更长。这是世界模型走向实用化的必经之路。