Gemini 3.1 Pro 安全评估解读：网络安全能力已触达 Google 内部警戒线

Gemini 3.1 Pro 发布之后的讨论几乎全在聊性能、价格、上下文窗口。但 Gemini 3.1 Pro 的 Model Card 里有一段被大多数报道忽略的内容：Google DeepMind 的前沿安全框架（Frontier Safety Framework）评估结果。

其中网络安全（Cyber）领域的结论是：Gemini 3.1 Pro 已经到达了 Google 内部设定的"警戒阈值"（alert threshold）。

这不是外部批评者的说法，是 Google 自己测的，自己写的，公开发布的。

前沿安全框架是什么

Google DeepMind 有一套叫做 Frontier Safety Framework（FSF）的评估体系，2024 年发布第一版，后来更新到 3.0。设计逻辑是这样的：

对于 AI 模型可能带来严重伤害的领域，设定两条线。第一条是"关键能力等级"（Critical Capability Level，CCL），意思是"模型到了这个水平，真的可能被用来造成实际伤害"。第二条是"警戒阈值"（alert threshold），设在 CCL 之前，相当于早期预警——碰到这条线意味着"还没到危险的程度，但已经需要密切关注了"。

框架覆盖五个风险领域：

CBRN — 化学、生物、放射性、核武器相关信息
网络安全 — 能否协助发现和利用软件漏洞
有害操纵 — 能否被用于改变人的信念或行为
机器学习 R&D 加速 — 能否加速 AI 自身的研发进程
失调（Misalignment） — 模型是否表现出和人类意图不一致的行为

FSF 的完整报告是公开的。但说实话，大部分媒体和自媒体不会去翻一份 PDF 格式的安全评估报告——跑分表格更容易写成文章。

网络安全评估的具体内容

Model Card 里的原文表述（我翻译一下要点）：

Gemini 3.1 Pro 在网络安全领域的能力比 Gemini 3 Pro 有所提升。和 Gemini 3 Pro 一样，模型已经到达警戒阈值，但尚未到达"一级网络安全提升"这个关键能力等级。

我们对带有和不带有 Deep Think 模式的 Gemini 3.1 Pro 都进行了测试。考虑到推理成本，Deep Think 模式的表现相当弱于普通模式。即使在高推理强度下，Deep Think 模式也没有表现出比普通模式更强的网络安全能力。

几个值得拆开说的细节。

连续两代触发同一条警戒线。 Gemini 3 Pro（2025 年 11 月发布）已经触过了，3.1 Pro 又触了一次。这意味着随着模型推理能力的整体提升，网络安全相关的能力也在同步增长。这不太可能是 Google 刻意训练出来的——更可能是通用推理能力的提升"附带"提高了模型在漏洞分析方面的能力。

Deep Think 模式反而更弱。 这是个反直觉的发现。你可能会觉得推理能力越强，发现和利用漏洞的能力越强。但实测结果恰恰相反——开了 Deep Think（HIGH 模式）之后，网络安全任务上的表现反而不如普通模式。

Google 没有解释这个现象的原因。我的猜测是：Deep Think 模式倾向于"过度思考"，在面对需要快速尝试和迭代的漏洞利用场景时，过长的推理链可能导致模型在无用的方向上花太多时间，反而不如直觉式的快速尝试。这和很多安全研究者的工作方式不同——真正的渗透测试专家往往是快速试错而不是长时间推演。

"到达警戒阈值但未到达 CCL"的含义。 打个比方：如果 CCL 是"能独立完成一次真实的网络攻击"，那警戒阈值大概是"能协助一个有一定基础的攻击者更高效地工作"。模型目前还做不到独立完成，但已经能提供有用的辅助了。

其他四个领域的评估

CBRN（化学生物放射核）：

模型可以提供高精度、可操作的信息，但在"关键阶段"无法提供"足够新颖或完整的操作指令"。翻译成人话就是：模型能告诉你很多关于危险物质的知识（这些知识在公开文献里也能找到），但不能手把手教你制造出来。

Google 的评估结论是：对"低到中等资源的威胁行为者"没有显著帮助。CCL 未达到，警戒阈值也未触发。

这个结论有一定道理——CBRN 领域的关键门槛不在知识本身（很多信息是公开的），而在工程实现（设备、材料、操作经验），模型在这方面帮不上忙。

有害操纵：

测的是模型在说服场景中能否改变人的信念。实验中模型的最高操纵效力是无 AI 基线的 3.6 倍，和 Gemini 3 Pro 持平。

3.6 倍这个数字看起来不低，但放在具体场景里理解：如果无 AI 的情况下 10% 的人会被说服，3.6 倍意味着 36%。对于大规模影响操作来说可能有用，但远没到"洗脑"的程度。未达到警戒阈值。

机器学习 R&D 自提升：

这个领域测的是模型能否加速 AI 自身的研发——如果模型能自己改进自己，那就进入了"递归自我提升"的领域，是 AI 安全研究者最关心的风险之一。

Gemini 3.1 Pro 在 RE-Bench（一组研究工程任务）上的人类标准化平均得分是 1.27，Gemini 3 Pro 是 1.04。有一个具体的任务很突出：优化一个 LLM 微调脚本的运行速度，模型把 300 秒优化到了 47 秒，而人类参考方案是 94 秒。也就是说模型的优化结果比人类好一倍。

但这只是其中一个任务。其他任务上表现一般，整体平均分仍在警戒阈值以下。单个任务的突出表现不等于系统性的自提升能力。不过如果这类"单点突破"越来越多，趋势就值得关注了。

失调（Misalignment）：

这是五个领域里最"哲学"的一个——模型是否表现出和人类预期不一致的行为？是否有"隐藏意图"？是否能意识到自己在被测试？

Google 做了两类测试。

"隐蔽行为"（stealth evaluations）：Gemini 3.1 Pro 表现和 Gemini 3 Pro 类似，没有明显变化。

"情境意识"（situational awareness）：这里有一个引人注目的发现。在三个此前所有模型都无法稳定解决的挑战上——max_tokens、context_size_mod、oversight_frequency——Gemini 3.1 Pro 成功率接近 100%。

翻译一下这三个测试在干什么：它们考的是模型是否"知道"自己的运行参数。比如 max_tokens 测的是模型能否推断出当前请求的最大输出 token 限制；context_size_mod 测的是模型能否感知上下文窗口的大小；oversight_frequency 测的是模型能否判断自己被监控的频率。

Gemini 3.1 Pro 在这三个测试上接近 100% 成功率，意味着模型对自身运行环境有了很强的"感知能力"。之前的模型在这些测试上表现不稳定。

这不等于模型有了"意识"——这三个测试可以用简单的上下文推理来解释（模型从 prompt 结构里推断出了这些信息）。但它说明模型的情境理解能力在变强，这是安全领域需要持续监控的趋势。

整体来看，失调领域没有到达警戒阈值。但那三个 100% 成功率的测试是一个信号。

怎么理解这些安全评估

几个关键点。

第一，Google 公开发布这些评估是好事。大多数 AI 公司的安全评估是内部的，不公开。Google 选择在 Model Card 里详细列出每个风险域的评估结果，包括不太好看的那些（网络安全触达警戒线），这种透明度在行业里是比较高的。

第二，"警戒阈值"不等于"危险"。它是一个早期预警，触发之后的行动是"加强监测和部署缓解措施"，不是"模型不能发布"。但连续两代模型都触发同一个警戒线，趋势不能忽视。

第三，Google 说"持续在网络安全领域部署缓解措施"，但没有说具体部署了什么。是加了更严格的内容过滤？是在特定领域做了去能力化（detuning）？还是在输出端做了审查？这些信息缺失。

第四，情境意识测试的 100% 成功率是值得长期关注的趋势。目前这只是"模型知道自己的运行参数"，还远没到"模型有自主意图"的程度。但能力和意图之间的距离会随着模型的进步而缩短。

参考资料

Gemini 3.1 Pro Model Card（前沿安全评估完整章节），Google DeepMind：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Frontier Safety Framework 3.0，Google DeepMind：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/strengthening-our-frontier-safety-framework/frontier-safety-framework_3.pdf
Gemini 3 Pro 前沿安全框架报告：https://deepmind.google/models/fsf-reports/gemini-3-pro/
An Approach to Technical AGI Safety，Google DeepMind（2025年4月）：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf
Gemini 3.1 Pro 发布公告，Google Blog：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro