可靠性悖论：在"物理错误"的世界里训练出来的 Agent 能用吗

一个让人不安的问题

DeepMind 说 Genie 3 可以用来训练 AI 智能体。思路是：在虚拟世界里大量练习，然后迁移到现实世界。

但 Ben Dickson 在 TechTalks 上提了一个尖锐的问题：Genie 3 的世界物理是不准的。人会倒着走，物体会穿模，球可能不会滚。在一个物理规律都不对的世界里训练出来的 Agent，怎么可能在现实世界里可靠？

这个问题指向了世界模型用于 Agent 训练的核心矛盾。

DeepMind 的研究团队没有回避这个问题。他们的回答是：虽然这些模拟不足以保证 Agent 在现实世界中正确工作，但可以用来证明 Agent 的不可靠性。

翻译一下：如果你的 Agent 连在 Genie 3 这种不完美的世界里都失败了，那它在现实世界肯定也不行。

这是一个巧妙的视角转换。不是用世界模型来"证明能行"，而是用来"证明不行"。

其实不只是 Genie 3。所有仿真环境都面临 sim-to-real gap（仿真到现实的鸿沟）。

传统物理仿真器（MuJoCo、PyBullet 等）的物理是精确的，但问题在于：

Genie 3 的问题只是更明显：它的物理是学出来的，不是算出来的，所以错误更显眼。

这里有一个区分很重要：

系统性错误 vs 随机性错误

传统仿真器的错误是系统性的。地面摩擦系数设成 0.5，所有场景都是 0.5。这种错误可以通过 domain randomization（领域随机化）来处理——故意加入随机扰动，让 Agent 学会适应变化。

Genie 3 的错误更接近随机性的。同一个场景，这次球滚了，下次可能不滚。这种不可预测的错误更难处理，因为 Agent 学到的可能不是"物理规律"，而是"统计规律"。

如果目标是训练一个在现实世界部署的 Agent，Genie 3 可能不是最佳选择。物理不一致会让 Agent 学到错误的因果关系。

但如果目标是：

筛选和测试。 把候选 Agent 丢进 Genie 3 生成的各种奇怪场景，看它会不会崩溃。能在混乱世界里存活的 Agent，至少鲁棒性不会太差。

能力上界探索。 在理想化（虽然物理不准）的环境里，看 Agent 架构能学到什么程度。如果连在宽松的环境里都学不会，换个架构吧。

数据增强。 生成大量多样化的场景，作为训练数据的补充。这里的关键词是"补充"，不是"替代"。

DeepMind 的 SIMA（Scalable Instructable Multiworld Agent）已经在用 Genie 3 生成的世界做测试了。

他们的做法是：SIMA 在 Genie 3 里执行导航任务，输出方向键指令，Genie 3 根据指令生成下一帧画面。

这个闭环的目的不是让 SIMA 学习物理规律，而是测试 SIMA 的指令理解和规划能力。就算世界物理不对，"理解'向左走'然后按左键"这个能力还是可以测的。

如果你在做 Agent 研究，怎么看待世界模型？

不要指望它替代真实测试。 世界模型是筛选工具，不是验收工具。Agent 最终还是要在真实环境里测。

用来生成边缘案例。 现实世界的测试数据总是有限的。世界模型可以生成"着火的仓库"、"结冰的路面"这种难以在现实中收集的场景。

关注失败模式。 在 Genie 3 里失败的 Agent 不一定在现实里失败，但至少暴露了某种脆弱性。这些失败值得分析。

期待技术进步。 Genie 3 的物理比 Genie 2 好很多。随着世界模型继续发展，可靠性会提升。但在那之前，保持谨慎。

可靠性悖论的核心是：我们想用不完美的工具训练完美的系统。

这在工程上很常见。飞行模拟器的物理也不完美，但飞行员还是要在模拟器里练习。关键是知道模拟器的限制在哪，不要对它期望过高。

Genie 3 不是银弹。它是工具箱里的一件新工具。用对了地方，它有价值。用错了地方，会出问题。

理解这个边界，比争论"能不能用"更重要。