内容审核进入交互时代:当生成的是可探索世界,过滤器该放在哪一层
图片生成有内容审核。视频生成有内容审核。现在世界模型来了,也得有内容审核。
但这次有点不一样。
生成一张图片或一段视频,审核系统可以在输出后检查一遍。有问题就不展示。
生成一个可交互的世界,用户可以实时操控,画面是动态生成的。你没法预先知道用户会走到哪里、看到什么。传统的"先生成后审核"思路不太适用了。
Project Genie 目前怎么做
从公开信息和测试报告来看,Project Genie 至少在两层做了过滤:
输入层:提示词过滤。 在用户提交环境和角色描述后,系统会检查是否包含敏感关键词或模式。The Verge 的测试记者发现,"Kingdom Hearts"相关的提示词会被拦截,"Super Mario 64"一开始能过,后来也被封了。
策略层:动态调整。 Google 会根据反馈实时调整过滤规则。测试期间,同样的提示词从"可以生成"变成"被拦截",说明规则在持续迭代。
但这两层都有局限。
输入过滤的漏洞
提示词过滤最大的问题是:绕过太容易。
你不说"马里奥",说"一个戴红帽子的矮胖水管工在蘑菇形状的平台上跳跃"。模型照样知道你想要什么,因为它的训练数据里这些视觉特征和"马里奥"这个概念是绑定的。
更极端的情况:你完全不用文字描述,直接上传一张参考图片。Project Genie 支持图片输入。这时候关键词过滤根本没机会触发。
输出审核的困境
传统做法是在输出端挂一个分类器,检查生成的内容有没有问题。
但世界模型的输出是实时视频流,每秒 24 帧。每一帧都跑一个分类器的计算成本很高。
而且,什么算"有问题"?暴力内容?色情内容?侵犯版权的角色?每一类都需要不同的检测模型。叠加起来,延迟和成本都会变得不可接受。
更麻烦的是,有些问题只有在特定上下文下才能识别。一个人拿着刀,可能是在做饭,也可能是在行凶。静态帧看不出来,需要理解前后文。
生成过程中的约束
一个可能的方向是在生成过程中就施加约束,而不是事后检查。
比如,在动力学模型的条件输入里注入安全约束:"生成过程中不能出现武器""不能出现裸露"。这需要在模型训练阶段就把约束编码进去,或者通过条件引导的方式在推理时施加。
这种方法的好处是不增加额外的后处理延迟。坏处是约束可能不够灵活——规则变了就得重新训练或调整模型。
版权和风格的模糊地带
技术上最难处理的可能不是传统的"有害内容",而是版权和风格相似性。
怎么定义"像马里奥"?帽子颜色红色算吗?改成橙色呢?体型圆润算吗?瘦一点呢?
现在的分类器能识别"这张图是不是马里奥",但很难判断"这张图像马里奥到什么程度算侵权"。
这本质上是法律问题而不是技术问题。但平台得先做一个技术判断,才能决定拦不拦截。在法律明确之前,平台只能保守行事——宁可误杀,不可漏过。这会让用户感到规则不透明、不一致。
用户体验的代价
测试记者的体验就是例子:他一开始玩得很开心,后来同样的 prompt 被封了,没有具体解释。
如果规则频繁变动、边界不清晰,用户会产生挫败感。他们不知道什么能做什么不能做,只能反复试错。
更糟糕的是,如果误杀率高,正常创作也会受影响。你只是想做个"复古平台游戏风格"的世界,但因为和某个知名 IP 的视觉相似度太高,被拦截了。
分层策略
一个可能的治理架构是分层处理:
- 明确的黑名单:已知的商标、角色名、受保护的 IP,直接在输入层拦截
- 视觉相似度检测:生成预览图后,用图像检索模型比对是否和已知受保护内容相似
- 行为约束:在可交互阶段,限制某些动作(比如不能做出攻击动作)
- 事后审查:用户下载的 60 秒视频在发布前过一道内容审核
每一层针对不同类型的风险,层层递进。
没有完美方案
实话说,当生成能力足够强、用户意图足够复杂时,没有任何审核系统能保证万无一失。
最终的平衡可能是:
- 接受一定的漏网之鱼
- 通过事后追责(下架、封号)来威慑
- 把商业敏感内容(明确的 IP 侵权)管严,把灰色地带(风格相似)管松
- 逐步积累案例,形成更细化的规则
这和其他平台治理没有本质区别。只是世界模型的交互性和实时性让问题变得更难处理。
Project Genie 现在只开放给付费用户、60 秒限时、不能公开分享,某种程度上也是在用产品限制来缓解治理压力。等技术和规则都更成熟了,再逐步放开。