让机器人在梦里学习：世界模型作为合成数据工厂的系统性风险

Hacker News 上关于 Genie 3 的讨论帖里，点赞最高的一条评论提到一个想法：未来的机器人可能会在梦里学习。

意思是：白天机器人在真实环境里收集数据，晚上机器人在世界模型生成的虚拟环境里"做梦"——练习各种场景，巩固学到的技能。

这个想法不是空穴来风。用仿真环境训练机器人已经是标准做法。世界模型的新颖之处在于，它可以凭空生成仿真环境，不需要人类费劲手搓每一个场景。

但这里有个问题：模型生成的训练数据，会不会系统性地教错东西？

仿真误差会被放大

传统仿真器的误差主要来自物理建模不精确。比如模拟器里的摩擦力系数和真实世界不一样，导致机器人在仿真里能走的坡在真实世界里打滑。

世界模型的误差来源不一样。它不是在解物理方程，它是在做视觉预测。如果训练数据里的玻璃杯从桌上掉下去大多数时候看起来"砸碎了"，模型就会学到"玻璃杯掉下去就碎"。

但真实世界里这取决于高度、地面材质、杯子厚度。模型把这些变量都压缩成了一个概率性输出，具体物理过程丢失了。

当你用这种世界模型大规模生成训练数据时，这些误差不会互相抵消，而是会沿着某个特定方向系统性地偏离。

前一篇文章里有人举了个假想案例：

假设你在用世界模型训练消防员机器人。模型见过很多消防员砸玻璃的视频——锤子一砸，玻璃就碎。于是机器人学到"砸玻璃 → 玻璃碎"。

真实救援场景里，机器人遇到一扇防弹玻璃窗。它砸不碎。但机器人没有"防弹玻璃"这个概念，它只知道"砸玻璃就会碎"。

于是它一直砸。砸不碎就继续砸。直到电池耗尽或者手臂磨坏。

这不是模型"傻"，而是模型从训练数据里学到的世界是个简化版本，真实世界的复杂性被抹掉了。

传统仿真器的 sim-to-real gap（仿真到真实的差距）是已知问题，有一套对应的解决方案：域随机化、系统辨识、残差策略等。

世界模型带来的 gap 更隐蔽。画面看起来很真实，比传统仿真器的几何模型真实多了。这会给开发者一种虚假的信心——"看起来这么真，应该能用吧"。

但视觉真实和物理真实是两回事。一幅画面可以看起来像真实的消防场景，但里面的物理交互完全是胡编的。

世界模型训练于网络视频。网络视频里什么场景多？什么场景少？

游戏实况多，工业现场少。城市街道多，矿山隧道少。正常操作多，极端故障少。

如果你用世界模型生成的数据训练 Agent，Agent 对高频场景的适应会好，对低频场景的适应会差。而真实世界里出问题的往往是低频场景。

这不是说世界模型生成的数据完全不能用。可能的使用方式包括：

用于预训练，不用于最终策略。 让 Agent 先在大量合成数据上学一个大概的感知和运动基础，然后用真实数据做微调。

用于泛化测试，不用于核心训练。 生成大量极端场景来测试 Agent 的稳健性，但核心训练还是用传统仿真或真实数据。

配合安全兜底。 Agent 的每一个输出在执行前都经过基于规则的安全检查。比如"连续砸玻璃超过 10 次就停下来重新规划"。

不是"用世界模型训练的机器人会犯错"——任何训练方法都会犯错。

真正的风险是：世界模型生成数据的规模可以非常大，成本可以非常低。当你可以轻松生成十亿帧合成数据时，很容易就把"量"当成了"质"，忽略了这些数据里系统性存在的偏差和误导。

机器人在梦里学习是一个迷人的愿景。但梦可能是噩梦，也可能是幻觉。关键在于你怎么检验醒来之后它学到的东西是不是真的。