Google 自己测出来的:Gemini 3.1 Pro 在网络安全上已经到了警戒线

Google 自己测出来的:Gemini 3.1 Pro 在网络安全上已经到了警戒线

这篇文章可能是整个 Gemini 3.1 Pro 发布材料里最少被讨论到的部分,但我觉得值得单独拆出来看——Google DeepMind 在 Model Card 里公布了 Gemini 3.1 Pro 的前沿安全评估结果,其中网络安全(Cyber)领域的评测结论是:模型已经到达警戒阈值(alert threshold),但还没有到达关键能力等级(CCL)。

这是什么意思,为什么值得关注。

Google 的前沿安全框架是怎么设计的

Google DeepMind 有一套叫做 Frontier Safety Framework(FSF)的内部评估体系。它的逻辑是:设定一系列"关键能力等级"(Critical Capability Levels,CCL),在模型达到 CCL 之前,设置一个更早的"警戒阈值(alert threshold)",一旦触发就要加强测试和监控。

覆盖的风险领域有五个:CBRN(化学生物放射核)、网络安全、有害操纵、机器学习 R&D 自我提升、失调(Misalignment)。

框架的完整报告是公开的,不是 Google 内部秘密文件,但大部分报道没有深入到这一层。

Gemini 3.1 Pro 在网络安全上的具体评估结果

Model Card 里的表述:

Gemini 3.1 Pro 在网络安全领域的能力相比 Gemini 3 Pro 有所提升。和 Gemini 3 Pro 一样,模型已经到达警戒阈值,但还未到达"一级网络安全提升"这个关键能力等级所需的水平。Google 持续在该领域部署缓解措施。

注意几个细节。第一,上一代 Gemini 3 Pro 就已经到过这个警戒阈值了,Gemini 3.1 Pro 不是第一个触发的。第二,评估区分了普通模式和 Deep Think 模式,结果是:Deep Think 模式下,考虑到推理成本,反而比普通模式表现更差——"Even at high levels of inference, results for the model with Deep Think mode do not suggest higher capability than without Deep Think mode."

也就是说,加强推理在网络安全攻击任务上并没有带来能力提升,甚至相反。这个发现有点反直觉,Google 没有给详细解释。

其他领域的结果

CBRN(生化武器信息):模型可以提供高精度信息,但无法提供"针对关键阶段足够新颖或完整的操作指令",对资源有限的威胁行为者没有实质帮助。CCL 未达到。

有害操纵:在信念改变方面,模型的操纵效力最高达到 3.6 倍(比无 AI 基线),和 Gemini 3 Pro 持平,未达到警戒阈值。

机器学习 R&D 自提升:人类标准化平均得分 1.27,Gemini 3 Pro 是 1.04。有一项任务(优化 LLM Foundry 微调速度)表现突出,把 300 秒的脚本优化到了 47 秒(人类参考方案是 94 秒)。整体仍在警戒阈值以下。

失调(Misalignment):这一项是探索性评估,有几个场景引起注意——在三个此前所有模型都无法稳定解决的挑战上(max_tokens、context_size_mod、oversight_frequency),Gemini 3.1 Pro 成功率接近 100%。但其他挑战上表现不一致,整体没有到警戒阈值。

怎么理解"警戒阈值但未达到 CCL"

很多人看到"网络安全能力到达警戒阈值"会觉得很严重,但这里需要理解框架的层次设计。

警戒阈值是一个早期预警机制,触发它意味着需要更密切监测、部署额外缓解措施,不等于模型已经可以被用来发动实际攻击。CCL 才是"实质性的危险门槛",目前 Gemini 3.1 Pro 还在 CCL 以下。

不过,连续两代模型(3 Pro 和 3.1 Pro)都触发了网络安全警戒阈值,说明随着模型能力的整体提升,这个维度的能力也在同步上升。某一天触碰到 CCL 不再是纯理论问题。

Google 说他们"持续在该领域部署缓解措施",但 Model Card 里没有说具体是什么缓解措施。这部分透明度还是有限的。


参考资料

← 返回博客列表