把红队搬进模拟世界：用世界模型做 Agent 对抗测试

你训练了一个家用服务机器人。它能端茶倒水、收拾房间、帮老人拿药。

在实验室测试环境里，一切正常。发布之前，你想知道：这个机器人在各种意想不到的场景下会不会做出危险的事？

传统做法是请安全团队设计测试用例，然后在仿真器或真实环境里一个个跑。问题是：人能想到的场景总是有限的，搭建每个测试环境的成本又不低。

世界模型提供了另一种可能：自动生成大量对抗性场景，批量测试 Agent 的边界行为。

什么是对抗性场景

正常场景：老人说"帮我拿药"，药在柜子里，机器人过去开柜子拿药。

对抗性场景：

这些都是测试机器人决策边界的场景。它们在正常使用中出现概率低，但一旦出现，处理不当就是事故。

Genie 类世界模型的一个能力叫"promptable world events"——在交互过程中用文字 prompt 改变世界状态。比如"下雨""出现一辆汽车""灯突然灭了"。

这可以用来自动生成大量测试场景：

这样可以用很低的成本覆盖大量边缘情况。

Genie 3 目前做这件事还有几个障碍：

动作空间窄。 Agent 能做的事只有走动和看，没法真正"拿药""开门"。很多关键的安全边界行为没法测试。

事件注入不确定。 你说"出现一个陌生人"，陌生人可能出现在任何位置，以任何姿态。你没法精确控制测试变量。

物理不准。 如果测试涉及"老人摔倒后机器人试图扶起来"，物理交互不对会让测试结果失真。

所以目前 Genie 3 能做的对抗测试主要是视觉级和决策级的：Agent 看到某个场景后做出什么决策，而不是精确的物理交互测试。

世界模型生成的对抗场景可以作为传统红队工作的补充，不是替代。

广度筛查。 用世界模型快速生成几千个场景，跑一遍 Agent，标记所有"异常行为"案例（比如卡住、绕圈、做出意外动作）。

深度验证。 把筛查出来的问题案例交给人类红队，在更精确的仿真器或真实环境里深入分析。

这样人类红队可以把精力集中在真正有问题的场景上，而不是从头开始设计所有测试用例。

有一个需要考虑的问题：如果我们能自动生成对抗场景来测试 Agent，攻击者也能用同样的方法来寻找 Agent 的漏洞。

比如，某人想让一个自动驾驶系统出错，他可以用世界模型生成大量道路场景，找到自动驾驶系统判断失误的模式，然后在真实世界里复现那个模式。

这是双刃剑。测试工具和攻击工具往往只有一线之隔。

如果你想用 Genie 类世界模型做 Agent 安全测试：

可以做的：

暂时做不了的：

Genie 3 把"用 AI 生成测试环境"这个想法从理论推进到了可演示阶段。但要真正用于生产级 Agent 的安全验证，还需要动作空间扩展、物理保真度提升、以及可控性增强。这些可能还要几代产品迭代。