可信度危机:当世界会"失忆",你还敢用它训练 Agent 吗
The Verge 的测试记者在 Project Genie 里玩"Rollerball"——一个蓝色球在雪地上滚动,滚过的地方会留下颜料痕迹。
他发现一个问题:滚了一圈回来,之前留下的某些痕迹消失了。有时候球还会突然停止留痕,好像忘了自己刚才在干嘛。
另一个世界"Backyard Racetrack"更离谱。跑着跑着,赛道的一部分突然变成了草地。赛道!变成了草地!
这不是 bug,这是世界模型目前的特性。问题是:如果你想用这种模型训练 AI 代理,这种特性会是个麻烦。
一致性漂移会教坏 Agent
假设你在用 Genie 类的世界模型训练一个送货机器人。机器人需要学会:从 A 点走到 B 点,绕过障碍物,把包裹放到目的地。
训练过程中,机器人尝试某条路线,撞到了一棵树,收到负反馈。下次它避开那棵树。
但如果世界模型"忘了"那棵树在哪里,下次机器人走同样的路线,树没了。它得到了正反馈。
机器人学到了什么?"这条路有时候有树有时候没有,碰运气就行。"
这是错误的知识。真实世界里那棵树一直在那儿。
确定性 vs 概率性
传统游戏引擎和物理仿真器是确定性的。同样的初始状态,同样的动作序列,一定会产生同样的结果。撞墙就是撞墙,每次都一样。
世界模型是概率性的。它预测的是"最可能的下一帧",不是"必然的下一帧"。同样的场景走两遍,细节可能不一样。
这种随机性对于看起来有趣的内容生成来说可能是优点——增加多样性。但对于需要稳定因果关系的训练来说是致命缺陷。
Agent 需要学习的是"如果我做 X,就会发生 Y"。如果这个因果关系本身不稳定,它学到的就是噪声。
没法 replay 也是问题
训练 Agent 的一个常用技巧是经验回放:把之前的交互记录存下来,反复学习。
但世界模型没有"存档"概念。每次生成的世界都是新的,即使用相同的提示词。你没法把一个 Agent 放回"昨天那个世界的那个状态"继续练。
这不是完全不能解决——可以录制整个交互序列然后用监督学习——但会让训练流程复杂得多。
DeepMind 自己怎么说
有意思的是,DeepMind 在 Genie 3 的博客里明确说,这项技术的一个用途是"训练 AI 代理"。他们还展示了 SIMA(他们的游戏 AI 代理)在 Genie 生成的世界里执行任务。
但仔细看那些演示:任务都非常简单。"走向蓝色门""走到楼梯那边"。这些不需要长链记忆,不需要精确物理,不需要复杂状态跟踪。
他们展示的是"可以在 Genie 世界里跑 Agent",不是"可以在 Genie 世界里训练 Agent 然后部署到真实世界"。
如果要用,怎么用
几种可能的缓解方案:
混合训练。 用世界模型生成大量低保真经验,用传统仿真器生成少量高保真经验,两者结合。这样既有量又有质。
只用于探索,不用于评估。 让 Agent 在世界模型里"天马行空"地尝试各种策略,但用确定性仿真器来评估策略的实际效果。
短周期任务。 只在世界模型能保持一致的时间窗口内(对 Genie 3 来说是一分钟)训练 Agent。不依赖长期记忆。
显式状态注入。 把关键状态信息(物体位置、任务进度)用文字 prompt 的形式持续喂给模型,减轻它自己记忆的负担。
现状
目前,用 Genie 类世界模型直接训练生产级 Agent 是不现实的。一致性不够、确定性不够、可重复性不够。
但这不意味着它没价值。作为快速原型验证工具、作为数据增强来源、作为泛化能力测试床,它可能有用。
只是要认清:这是一个会失忆、会变形、会"骗人"的世界。在里面训练出来的 Agent,拿到真实世界去之前,得反复校验。