内容审核进入交互时代：当生成的是可探索世界，过滤器该放在哪一层

图片生成有内容审核。视频生成有内容审核。现在世界模型来了，也得有内容审核。

但这次有点不一样。

生成一张图片或一段视频，审核系统可以在输出后检查一遍。有问题就不展示。

生成一个可交互的世界，用户可以实时操控，画面是动态生成的。你没法预先知道用户会走到哪里、看到什么。传统的"先生成后审核"思路不太适用了。

Project Genie 目前怎么做

从公开信息和测试报告来看，Project Genie 至少在两层做了过滤：

输入层：提示词过滤。 在用户提交环境和角色描述后，系统会检查是否包含敏感关键词或模式。The Verge 的测试记者发现，"Kingdom Hearts"相关的提示词会被拦截，"Super Mario 64"一开始能过，后来也被封了。

策略层：动态调整。 Google 会根据反馈实时调整过滤规则。测试期间，同样的提示词从"可以生成"变成"被拦截"，说明规则在持续迭代。

但这两层都有局限。

提示词过滤最大的问题是：绕过太容易。

你不说"马里奥"，说"一个戴红帽子的矮胖水管工在蘑菇形状的平台上跳跃"。模型照样知道你想要什么，因为它的训练数据里这些视觉特征和"马里奥"这个概念是绑定的。

更极端的情况：你完全不用文字描述，直接上传一张参考图片。Project Genie 支持图片输入。这时候关键词过滤根本没机会触发。

传统做法是在输出端挂一个分类器，检查生成的内容有没有问题。

但世界模型的输出是实时视频流，每秒 24 帧。每一帧都跑一个分类器的计算成本很高。

而且，什么算"有问题"？暴力内容？色情内容？侵犯版权的角色？每一类都需要不同的检测模型。叠加起来，延迟和成本都会变得不可接受。

更麻烦的是，有些问题只有在特定上下文下才能识别。一个人拿着刀，可能是在做饭，也可能是在行凶。静态帧看不出来，需要理解前后文。

一个可能的方向是在生成过程中就施加约束，而不是事后检查。

比如，在动力学模型的条件输入里注入安全约束："生成过程中不能出现武器""不能出现裸露"。这需要在模型训练阶段就把约束编码进去，或者通过条件引导的方式在推理时施加。

这种方法的好处是不增加额外的后处理延迟。坏处是约束可能不够灵活——规则变了就得重新训练或调整模型。

技术上最难处理的可能不是传统的"有害内容"，而是版权和风格相似性。

怎么定义"像马里奥"？帽子颜色红色算吗？改成橙色呢？体型圆润算吗？瘦一点呢？

现在的分类器能识别"这张图是不是马里奥"，但很难判断"这张图像马里奥到什么程度算侵权"。

这本质上是法律问题而不是技术问题。但平台得先做一个技术判断，才能决定拦不拦截。在法律明确之前，平台只能保守行事——宁可误杀，不可漏过。这会让用户感到规则不透明、不一致。

测试记者的体验就是例子：他一开始玩得很开心，后来同样的 prompt 被封了，没有具体解释。

如果规则频繁变动、边界不清晰，用户会产生挫败感。他们不知道什么能做什么不能做，只能反复试错。

更糟糕的是，如果误杀率高，正常创作也会受影响。你只是想做个"复古平台游戏风格"的世界，但因为和某个知名 IP 的视觉相似度太高，被拦截了。

一个可能的治理架构是分层处理：

每一层针对不同类型的风险，层层递进。

实话说，当生成能力足够强、用户意图足够复杂时，没有任何审核系统能保证万无一失。

最终的平衡可能是：

这和其他平台治理没有本质区别。只是世界模型的交互性和实时性让问题变得更难处理。

Project Genie 现在只开放给付费用户、60 秒限时、不能公开分享，某种程度上也是在用产品限制来缓解治理压力。等技术和规则都更成熟了，再逐步放开。