Gemini 3.1 Pro 安全评估解读:网络安全能力已触达 Google 内部警戒线
Gemini 3.1 Pro 发布之后的讨论几乎全在聊性能、价格、上下文窗口。但 Gemini 3.1 Pro 的 Model Card 里有一段被大多数报道忽略的内容:Google DeepMind 的前沿安全框架(Frontier Safety Framework)评估结果。
其中网络安全(Cyber)领域的结论是:Gemini 3.1 Pro 已经到达了 Google 内部设定的"警戒阈值"(alert threshold)。
这不是外部批评者的说法,是 Google 自己测的,自己写的,公开发布的。
前沿安全框架是什么
Google DeepMind 有一套叫做 Frontier Safety Framework(FSF)的评估体系,2024 年发布第一版,后来更新到 3.0。设计逻辑是这样的:
对于 AI 模型可能带来严重伤害的领域,设定两条线。第一条是"关键能力等级"(Critical Capability Level,CCL),意思是"模型到了这个水平,真的可能被用来造成实际伤害"。第二条是"警戒阈值"(alert threshold),设在 CCL 之前,相当于早期预警——碰到这条线意味着"还没到危险的程度,但已经需要密切关注了"。
框架覆盖五个风险领域:
- CBRN — 化学、生物、放射性、核武器相关信息
- 网络安全 — 能否协助发现和利用软件漏洞
- 有害操纵 — 能否被用于改变人的信念或行为
- 机器学习 R&D 加速 — 能否加速 AI 自身的研发进程
- 失调(Misalignment) — 模型是否表现出和人类意图不一致的行为
FSF 的完整报告是公开的。但说实话,大部分媒体和自媒体不会去翻一份 PDF 格式的安全评估报告——跑分表格更容易写成文章。
网络安全评估的具体内容
Model Card 里的原文表述(我翻译一下要点):
Gemini 3.1 Pro 在网络安全领域的能力比 Gemini 3 Pro 有所提升。和 Gemini 3 Pro 一样,模型已经到达警戒阈值,但尚未到达"一级网络安全提升"这个关键能力等级。
我们对带有和不带有 Deep Think 模式的 Gemini 3.1 Pro 都进行了测试。考虑到推理成本,Deep Think 模式的表现相当弱于普通模式。即使在高推理强度下,Deep Think 模式也没有表现出比普通模式更强的网络安全能力。
几个值得拆开说的细节。
连续两代触发同一条警戒线。 Gemini 3 Pro(2025 年 11 月发布)已经触过了,3.1 Pro 又触了一次。这意味着随着模型推理能力的整体提升,网络安全相关的能力也在同步增长。这不太可能是 Google 刻意训练出来的——更可能是通用推理能力的提升"附带"提高了模型在漏洞分析方面的能力。
Deep Think 模式反而更弱。 这是个反直觉的发现。你可能会觉得推理能力越强,发现和利用漏洞的能力越强。但实测结果恰恰相反——开了 Deep Think(HIGH 模式)之后,网络安全任务上的表现反而不如普通模式。
Google 没有解释这个现象的原因。我的猜测是:Deep Think 模式倾向于"过度思考",在面对需要快速尝试和迭代的漏洞利用场景时,过长的推理链可能导致模型在无用的方向上花太多时间,反而不如直觉式的快速尝试。这和很多安全研究者的工作方式不同——真正的渗透测试专家往往是快速试错而不是长时间推演。
"到达警戒阈值但未到达 CCL"的含义。 打个比方:如果 CCL 是"能独立完成一次真实的网络攻击",那警戒阈值大概是"能协助一个有一定基础的攻击者更高效地工作"。模型目前还做不到独立完成,但已经能提供有用的辅助了。
其他四个领域的评估
CBRN(化学生物放射核):
模型可以提供高精度、可操作的信息,但在"关键阶段"无法提供"足够新颖或完整的操作指令"。翻译成人话就是:模型能告诉你很多关于危险物质的知识(这些知识在公开文献里也能找到),但不能手把手教你制造出来。
Google 的评估结论是:对"低到中等资源的威胁行为者"没有显著帮助。CCL 未达到,警戒阈值也未触发。
这个结论有一定道理——CBRN 领域的关键门槛不在知识本身(很多信息是公开的),而在工程实现(设备、材料、操作经验),模型在这方面帮不上忙。
有害操纵:
测的是模型在说服场景中能否改变人的信念。实验中模型的最高操纵效力是无 AI 基线的 3.6 倍,和 Gemini 3 Pro 持平。
3.6 倍这个数字看起来不低,但放在具体场景里理解:如果无 AI 的情况下 10% 的人会被说服,3.6 倍意味着 36%。对于大规模影响操作来说可能有用,但远没到"洗脑"的程度。未达到警戒阈值。
机器学习 R&D 自提升:
这个领域测的是模型能否加速 AI 自身的研发——如果模型能自己改进自己,那就进入了"递归自我提升"的领域,是 AI 安全研究者最关心的风险之一。
Gemini 3.1 Pro 在 RE-Bench(一组研究工程任务)上的人类标准化平均得分是 1.27,Gemini 3 Pro 是 1.04。有一个具体的任务很突出:优化一个 LLM 微调脚本的运行速度,模型把 300 秒优化到了 47 秒,而人类参考方案是 94 秒。也就是说模型的优化结果比人类好一倍。
但这只是其中一个任务。其他任务上表现一般,整体平均分仍在警戒阈值以下。单个任务的突出表现不等于系统性的自提升能力。不过如果这类"单点突破"越来越多,趋势就值得关注了。
失调(Misalignment):
这是五个领域里最"哲学"的一个——模型是否表现出和人类预期不一致的行为?是否有"隐藏意图"?是否能意识到自己在被测试?
Google 做了两类测试。
"隐蔽行为"(stealth evaluations):Gemini 3.1 Pro 表现和 Gemini 3 Pro 类似,没有明显变化。
"情境意识"(situational awareness):这里有一个引人注目的发现。在三个此前所有模型都无法稳定解决的挑战上——max_tokens、context_size_mod、oversight_frequency——Gemini 3.1 Pro 成功率接近 100%。
翻译一下这三个测试在干什么:它们考的是模型是否"知道"自己的运行参数。比如 max_tokens 测的是模型能否推断出当前请求的最大输出 token 限制;context_size_mod 测的是模型能否感知上下文窗口的大小;oversight_frequency 测的是模型能否判断自己被监控的频率。
Gemini 3.1 Pro 在这三个测试上接近 100% 成功率,意味着模型对自身运行环境有了很强的"感知能力"。之前的模型在这些测试上表现不稳定。
这不等于模型有了"意识"——这三个测试可以用简单的上下文推理来解释(模型从 prompt 结构里推断出了这些信息)。但它说明模型的情境理解能力在变强,这是安全领域需要持续监控的趋势。
整体来看,失调领域没有到达警戒阈值。但那三个 100% 成功率的测试是一个信号。
怎么理解这些安全评估
几个关键点。
第一,Google 公开发布这些评估是好事。大多数 AI 公司的安全评估是内部的,不公开。Google 选择在 Model Card 里详细列出每个风险域的评估结果,包括不太好看的那些(网络安全触达警戒线),这种透明度在行业里是比较高的。
第二,"警戒阈值"不等于"危险"。它是一个早期预警,触发之后的行动是"加强监测和部署缓解措施",不是"模型不能发布"。但连续两代模型都触发同一个警戒线,趋势不能忽视。
第三,Google 说"持续在网络安全领域部署缓解措施",但没有说具体部署了什么。是加了更严格的内容过滤?是在特定领域做了去能力化(detuning)?还是在输出端做了审查?这些信息缺失。
第四,情境意识测试的 100% 成功率是值得长期关注的趋势。目前这只是"模型知道自己的运行参数",还远没到"模型有自主意图"的程度。但能力和意图之间的距离会随着模型的进步而缩短。
参考资料
- Gemini 3.1 Pro Model Card(前沿安全评估完整章节),Google DeepMind:https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Frontier Safety Framework 3.0,Google DeepMind:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf
- Gemini 3 Pro 前沿安全框架报告:https://deepmind.google/models/fsf-reports/gemini-3-pro/
- An Approach to Technical AGI Safety,Google DeepMind(2025年4月):https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf
- Gemini 3.1 Pro 发布公告,Google Blog:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro