可信度危机：当世界会"失忆"，你还敢用它训练 Agent 吗

The Verge 的测试记者在 Project Genie 里玩"Rollerball"——一个蓝色球在雪地上滚动，滚过的地方会留下颜料痕迹。

他发现一个问题：滚了一圈回来，之前留下的某些痕迹消失了。有时候球还会突然停止留痕，好像忘了自己刚才在干嘛。

另一个世界"Backyard Racetrack"更离谱。跑着跑着，赛道的一部分突然变成了草地。赛道！变成了草地！

这不是 bug，这是世界模型目前的特性。问题是：如果你想用这种模型训练 AI 代理，这种特性会是个麻烦。

一致性漂移会教坏 Agent

假设你在用 Genie 类的世界模型训练一个送货机器人。机器人需要学会：从 A 点走到 B 点，绕过障碍物，把包裹放到目的地。

训练过程中，机器人尝试某条路线，撞到了一棵树，收到负反馈。下次它避开那棵树。

但如果世界模型"忘了"那棵树在哪里，下次机器人走同样的路线，树没了。它得到了正反馈。

机器人学到了什么？"这条路有时候有树有时候没有，碰运气就行。"

这是错误的知识。真实世界里那棵树一直在那儿。

传统游戏引擎和物理仿真器是确定性的。同样的初始状态，同样的动作序列，一定会产生同样的结果。撞墙就是撞墙，每次都一样。

世界模型是概率性的。它预测的是"最可能的下一帧"，不是"必然的下一帧"。同样的场景走两遍，细节可能不一样。

这种随机性对于看起来有趣的内容生成来说可能是优点——增加多样性。但对于需要稳定因果关系的训练来说是致命缺陷。

Agent 需要学习的是"如果我做 X，就会发生 Y"。如果这个因果关系本身不稳定，它学到的就是噪声。

训练 Agent 的一个常用技巧是经验回放：把之前的交互记录存下来，反复学习。

但世界模型没有"存档"概念。每次生成的世界都是新的，即使用相同的提示词。你没法把一个 Agent 放回"昨天那个世界的那个状态"继续练。

这不是完全不能解决——可以录制整个交互序列然后用监督学习——但会让训练流程复杂得多。

有意思的是，DeepMind 在 Genie 3 的博客里明确说，这项技术的一个用途是"训练 AI 代理"。他们还展示了 SIMA（他们的游戏 AI 代理）在 Genie 生成的世界里执行任务。

但仔细看那些演示：任务都非常简单。"走向蓝色门""走到楼梯那边"。这些不需要长链记忆，不需要精确物理，不需要复杂状态跟踪。

他们展示的是"可以在 Genie 世界里跑 Agent"，不是"可以在 Genie 世界里训练 Agent 然后部署到真实世界"。

几种可能的缓解方案：

混合训练。 用世界模型生成大量低保真经验，用传统仿真器生成少量高保真经验，两者结合。这样既有量又有质。

只用于探索，不用于评估。 让 Agent 在世界模型里"天马行空"地尝试各种策略，但用确定性仿真器来评估策略的实际效果。

短周期任务。 只在世界模型能保持一致的时间窗口内（对 Genie 3 来说是一分钟）训练 Agent。不依赖长期记忆。

显式状态注入。 把关键状态信息（物体位置、任务进度）用文字 prompt 的形式持续喂给模型，减轻它自己记忆的负担。

目前，用 Genie 类世界模型直接训练生产级 Agent 是不现实的。一致性不够、确定性不够、可重复性不够。

但这不意味着它没价值。作为快速原型验证工具、作为数据增强来源、作为泛化能力测试床，它可能有用。

只是要认清：这是一个会失忆、会变形、会"骗人"的世界。在里面训练出来的 Agent，拿到真实世界去之前，得反复校验。