扒完全网测评，Gemini 3.1 Pro 到底能不能打？

Google 又放大招了。

2 月 19 号，Gemini 3.1 Pro 正式发布。Google 的原话是"our most advanced model for complex tasks"。中文科技媒体这边直接给了个"六边形战士"的标签，InfoQ 的标题更猛——"代码界新王登基！血洗 Claude 与 GPT，12 项基准测试第一！"

与此同时，GitHub 上的开发者在骂街：说好的"今日可用"，我作为付费用户等了四天还没拿到权限。HN（Hacker News）上有前 Google 工程师说，这是他用过"最让人抓狂的开发模型"。

夸的和骂的说的好像不是同一个东西。

所以我把能找到的中英文测评、基准数据、开发者论坛反馈、券商/媒体报道过了一遍，试着拼出一个完整的画面。

01 先把几个关键数据摆出来

Gemini 3.1 Pro 对比 3.0 Pro 的跑分提升：

基准测试	3.0 Pro	3.1 Pro	提升幅度
ARC-AGI-2（抽象推理）	31.1%	77.1%	+46pp，翻了一倍多
GPQA Diamond（科学推理）	91.9%	94.3%	+2.4pp
SWE-Bench Verified（代码修复）	76.2%	80.6%	+4.4pp
Terminal-Bench 2.0（终端编码）	56.9%	68.5%	+11.6pp
BrowseComp（搜索 Agent）	59.2%	85.9%	+26.7pp
MCP Atlas（工具调用）	54.1%	69.2%	+15.1pp
HLE（学术推理）	37.5%	44.4%	+6.9pp

以上数据均来自 Google DeepMind 官方 Model Card，评测配置为 Thinking (High)。

ARC-AGI-2 那个数字最炸——从 31.1% 到 77.1%，直接翻了一倍多。这不是那种"提了两三个点"的微调升级，是跨代级别的跳跃。

再看和竞品的横向对比：

基准测试	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2	77.1%	68.8%	52.9%
GPQA Diamond	94.3%	91.3%	92.4%
SWE-Bench Verified	80.6%	80.8%	80.0%
Humanity's Last Exam	44.4%	40.0%	34.5%
BrowseComp（搜索 Agent）	85.9%	84.0%	65.8%
Terminal-Bench 2.0	68.5%	65.4%	54.0%
GDPval-AA Elo（专家偏好）	1,317	1,606	1,462

以上数据均来自 Google DeepMind Model Card，各模型使用最高思考档位。

PCMag 的报道称 Gemini 3.1 Pro 在 19 项基准测试里赢了 12 项。数字确实好看。

但注意最后一行——GDPval-AA Elo，也就是专家盲评偏好。Opus 4.6 的 1,606 远超 Gemini 的 1,317，差了将近 300 分。跑分赢了，不代表专家用起来也满意。这个差距后面会展开说。

02 Google 官方在强调什么

翻了一下 Google 的官方博客和 Model Card，他们在反复强调几件事：

推理能力的飞跃。 ARC-AGI-2 从 31% 到 77%，这个数字被放在所有宣传材料的最前面。背后的技术原因是 HIGH 档 thinking_level 挂载了一个叫 Deep Think Mini 的推理引擎，模型在回答之前会先"想很久"。

100 万 token 上下文窗口。 这个 3.0 Pro 就有了，3.1 Pro 继续保留。在竞品里，Claude 的 100 万上下文只对 Tier 4 用户开放且在 beta 阶段，GPT-5.2 只有 40 万。Gemini 的 100 万是默认可用的。

6.4 万输出 token。 3.0 Pro 的实际输出经常在 2 万多 token 就截断了，开发者抱怨了很久。3.1 Pro 把上限提到 65,536 token。Reddit 上有人实测，输入 4.8 万 token 的代码，输出 5.5 万 token，没有截断。

原生多模态。 文本、图片、音频、视频、PDF 都可以直接扔进去。视频支持最长 1 小时（无音频）或 45 分钟（有音频），图片最多 3000 张。

定价不变。 跟 3.0 Pro 完全一样，$2/$12 每百万 token。等于说免费升级，换个 model ID 就行。

03 开发者论坛：吵翻了

这是最有意思的部分。官方在庆祝，开发者社区在打架。

Reddit（r/GeminiAI）——兴奋但谨慎。 一条标题为"Gemini 3.1 Pro finally solves the output limit issues"的帖子引发了不少讨论。开发者们对输出截断问题的解决明显松了一口气。但评论区也有人指出：幻觉率从 88%（3.0）降到了 50%（3.1），虽然砍了快一半，50% 的幻觉率仍然"高得离谱"。

Reddit（r/GithubCopilot）——质疑。 Gemini 3.1 Pro 同步进入了 GitHub Copilot。评论区的态度概括起来就一句话："impressive benchmark, wake me up if it's any good"——跑分好看和好用是两回事，别拿跑分忽悠我。

Hacker News——前 Google 工程师开怼。 有一条高赞评论来自一位前 Google 工程师。他说 Gemini "一直是最让人沮丧的开发模型"——推理能力确实强，但工具调用不好使，经常陷入循环，思考 token 的输出不够透明，实际开发体验远不如 Claude。

GitHub 讨论区——怨声载道。 Gemini CLI 的讨论帖（#19724 和 #19532）里，付费用户集体投诉。问题集中在：

宣布"今日可用"，但 CLI 用户几天后还看不到 3.1 Pro 的选项
配额消耗速度是 3.0 Pro 的两倍
触发 5 小时配额窗口三次后，被锁 90-99 小时
API 密钥用户当天就能用，Google 账号登录的用户要排队

有人总结说：Gemini 3.1 Pro 是"你能用到的最好的模型——如果你能用上的话"。

04 独立测评者怎么说

抛开 Google 自己的宣传和开发者社区的抱怨，看看第三方的评价。

What LLM（基准测试分析站） 做了一份很详细的独立评测，结论很克制："Gemini 3.1 Pro Preview is the strongest general-purpose model available as of February 2026"——范围最广的通用模型，但不是每个方向都最强。他们的测试对比的是 Claude Opus 4.5（当时最新版本），结论是编码场景 Claude 仍然有优势，纯数学场景 DeepSeek R2 更强（AIME 93.8% vs 91.2%）。不过，Google 官方 Model Card 给出的 SWE-Bench 数据（80.6% vs Opus 4.6 的 80.8%）显示差距已经缩小到 0.2 个百分点。

Revolution in AI（印度开发者博客） 的评价更偏体感："stays with me more often than expected"——意思是在做复杂、多步骤的任务时，Gemini 3.1 Pro 不容易"跑偏"了。以前的模型做到一半经常突然忘记上下文、自相矛盾或者漏掉关键约束，这一代在连贯性上有明显进步。

PCMag 的报道标题直接说"Beats Rivals in Key AI Benchmarks"，但正文里也承认，编码方面 Gemini 仍然落后于 Claude Opus 4.6。

人人都是产品经理 给了"六边形战士"的评价——意思是没有明显短板，每个方向都能打，但也没有哪个方向强到绝对碾压。

05 钱：便宜是真便宜

Gemini 3.1 Pro 的定价是这次讨论里争议最小的部分，因为确实便宜。

模型	输入价（每百万 token）	输出价（每百万 token）	上下文窗口
Gemini 3.1 Pro	$2.00	$12.00	100 万
Claude Sonnet 4.6	$3.00	$15.00	100 万（Tier 4 beta）
Claude Opus 4.6	$5.00	$25.00	100 万（Tier 4 beta）
GPT-5.2	$1.75	$14.00	40 万

Gemini 3.1 Pro 的输出价是 Opus 4.6 的一半不到。按每月 5000 万 token 算，Gemini 比 Opus 省 $500/月。

不过这里有个坑。Gemini 3.1 Pro 的 thinking_level 默认是 HIGH，会触发 Deep Think Mini 推理引擎，产生大量"思考 token"。思考 token 按输出价计费，$12/百万。一次 HIGH 档请求可能产生 3 万推理 token，光推理就花 $0.36。如果你不手动把 thinking_level 调低，实际账单会比预期高不少。

还有一个细节：输入超过 20 万 token 后，价格自动跳档——输入从 $2 涨到 $4（翻倍），输出从 $12 涨到 $18（涨 50%）。100 万上下文窗口虽然大，但真用起来价格阶梯在那摆着。

06 它赢在哪

综合所有测评，Gemini 3.1 Pro 的优势区域集中在四个方向：

抽象推理。 ARC-AGI-2 的 77.1% 领先 Opus 4.6 八个百分点、领先 GPT-5.2 二十四个百分点。这种需要"从零推导新规律"的能力，3.1 Pro 确实拉开了差距。

视频理解。 独立评测站 What LLM 的测试中，Gemini 3.1 Pro 在 VideoMME（视频理解基准）上拿到 87.2%，领先 Claude 近 8 个百分点。Gemini 的原生多模态架构支持最长 1 小时视频输入，在视频分析、会议录像总结这类场景下有结构性优势。

性价比。 同级模型里价格最低，上下文窗口最大，输出 token 上限最高。对预算敏感的团队来说，这是最实际的优势。

Agent 能力。 BrowseComp（搜索 Agent）从 59.2% 跳到 85.9%，MCP Atlas（工具调用）从 54.1% 跳到 69.2%。如果你在搭智能体系统，这两个数字意味着 Gemini 在"自动上网查资料"和"调用外部工具"这两件事上进步巨大。

07 它输在哪

跑分赢了不代表什么都赢。有几个方向 Gemini 3.1 Pro 明确不是最优解。

专家偏好。 GDPval-AA Elo，Opus 4.6 得分 1,606，Gemini 只有 1,317，GPT-5.2 在中间（1,462）。这个测试是让行业专家盲评模型输出的质量。换句话说，跑分表上 Gemini 赢了，但专家看完两边的输出，大多数时候更喜欢 Claude 的回答。

这个矛盾怎么理解？我的猜测是：Gemini 在"解题"类任务上确实更强（有标准答案的那种），但在"生成"类任务上（写代码、写文章、做分析这种需要品质判断的），Claude 的输出质量仍然更高。

工具调用稳定性。 多个开发者反馈，Gemini 3.1 Pro 在 LangChain4j、n8n、RooCode、Cursor 等框架里的 tool calling 有 bug。Vercel AI SDK 的结构化输出和代码执行功能也有兼容性问题。如果你的 Agent 架构依赖 function calling，现阶段风险不小。

编码体验。 SWE-Bench 跑分和 Claude 几乎打平（80.6% vs 80.8%），但多个开发者反馈实际编码体验差距比跑分显示的更大。前面提到的那位前 Google 工程师说 Gemini "经常陷入循环"，另一些人说在复杂工具链场景下 Claude 更"听话"。

长上下文的真实表现。 100 万上下文窗口是宣传亮点，但 Google Model Card 里自己公布的 MRCR v2 数据不那么好看：在 12.8 万 token 长度下，8 根"针"的精确检索准确率是 84.9%（和 Opus 4.6 的 84.0% 持平）；但到了 100 万 token 长度，准确率骤降到 26.3%——而且这个数字跟 3.0 Pro 完全一样，没有任何提升。意思是你塞了 100 万 token 进去，模型能"大致理解"但"精确记忆"的能力很有限。

08 发布翻车：一个值得记住的教训

Gemini 3.1 Pro 的发布过程本身就是一个反面案例。

Google 在 2 月 19 号官宣"today available"。但 Gemini CLI 的付费用户发现——模型列表里压根没有 gemini-3.1-pro-preview 这个选项。GitHub issue #19532 里开发者贴出了截图：CLI 只显示旧版模型。

与此同时，API 密钥用户早就在正常使用了。Google Antigravity 的用户也几乎第一时间拿到了权限。

"说好的今日可用，为什么我花了钱反而排在后面？"——这是 GitHub 讨论里出现频率最高的质问。

更离谱的是配额问题。有用户报告，切换到 3.1 Pro 后配额消耗速度是 3.0 Pro 的两倍。部分用户在正常使用后被锁号 90-99 小时。发布第一天，有用户测到单次请求延迟 104 秒。

这些问题在发布后的几天内逐渐缓解了。但它提醒了一件事：模型再好，如果上线节奏没协调好，开发者信任是会受损的。

09 几个容易被忽略的细节

在大量测评里，有几个细节比跑分本身更值得注意。

Thinking token 是个隐藏成本。 默认 thinking_level 是 HIGH，模型每次请求都会先"深度思考"，产生大量推理 token。这些 token 按输出价计费。Reddit 上有开发者说："我以为这模型很便宜，结果第一个月账单比预期高了三倍。"——原因就是没注意 thinking_level 的默认值。

幻觉率下降了，但还是高。 Reddit（r/GithubCopilot）讨论里有用户引用数据：Gemini 3.0 的幻觉率约 88%，3.1 降到了约 50%。降了快一半，但 50% 意味着每两次回答就可能有一次包含不准确的信息。这个数字来自社区用户的测试，具体口径和评测方法未公开，不同场景下的幻觉表现可能差异很大，仅供参考。

Preview 状态意味着没有 SLA。 Google 自己也在提醒：这是预览版，不是正式发布。Preview 阶段模型权重可能会被更新，行为可能会变化，不保证稳定性。跑在生产环境上的团队需要评估这个风险。

Apple 可能很快用上。 Bloomberg 报道了苹果和 Google 的多年合作协议，计划在 iOS 26.4 中用 Gemini 技术驱动 Siri。如果这个消息落地，Gemini 的能力会直接进入数亿台 iPhone，影响范围远超开发者圈子。

10 所以到底能不能打？

综合十几个不同来源、不同角度的测评，我的判断：

能打。而且在好几个方向上打得很漂亮。

ARC-AGI-2 的 77.1% 是实打实的推理能力领先，GPQA Diamond 的 94.3% 在科学推理上也拉开了差距。100 万默认上下文 + $2/$12 的定价，在性价比维度上没有对手。对从 3.0 Pro 升级的用户来说，同价换代，全面提升，没有不换的理由。

但"六边形战士"的说法需要打个折扣。

在专家偏好这个最接近"实际好不好用"的指标上，Claude Opus 4.6 仍然遥遥领先。在编码体验上，多个独立开发者反馈 Claude 更稳定、更可控。在工具调用上，3.1 Pro 目前有不少兼容性 bug。在长上下文的精确检索上，100 万 token 的实际效果远不如宣传那么美好。

一句话总结：如果你要的是"在最多方向上都够用、价格还便宜"的通用模型，Gemini 3.1 Pro 是当前最优选。如果你要的是某个特定方向上的最强表现——比如编码质量选 Claude Opus 4.6，比如纯数学推理选 DeepSeek R2——Gemini 3.1 Pro 不一定是最优解。

没有一个模型能在所有方向上同时最强。这个结论在今天依然成立。

11 不同人群的建议

在用 Gemini 3.0 Pro 的开发者： 直接换。Model ID 从 gemini-3-pro 改成 gemini-3.1-pro-preview，价格不变，能力全面提升。唯一要注意的是把 thinking_level 从默认的 HIGH 改成 MEDIUM 试试，大概率够用还省钱。

在用 Claude 或 GPT 的开发者： 不用急着换。先拿你实际的 prompt 跑一轮对比。Gemini 赢在价格和上下文窗口，Claude 赢在输出质量和编码体验，各有各的强项。如果你的场景对成本敏感或需要长上下文处理，值得认真评估。

做智能体/Agent 的团队： 等一等。工具调用的兼容性问题还没解决完，多个主流框架都有 bug 报告。等这波修完了再切不迟。

技术写作者和内容创作者： 可以试试 Gemini 3.1 Pro 的长文档总结和多模态分析能力。100 万上下文对处理大量资料做综述有实际帮助。但生成的内容还是要仔细核查，幻觉率还没降到让人完全放心的水平。

普通用户： 如果你有 Google AI Pro 或 Ultra 订阅，Gemini APP 里已经可以用了。免费用户也有限额可以体验。拿你平时问 AI 的那些问题跑一遍，感受比看跑分表直接。

不同的人站在不同的立场，看到的 Gemini 3.1 Pro 是完全不同的样子。Google 看到的是"19 项基准里赢了 12 项"，开发者看到的是"付了钱还被锁号四天"，跑分网站看到的是"最有性价比的前沿模型"，实际写代码的人看到的是"推理确实强了，但工具调用还是不如 Claude 顺手"。

哪个才是真实的 Gemini 3.1 Pro？

可能都是。

别人的测评是地图，你自己的体验才是路。

本文信息来源：Google 官方博客（2026.2.19）、Google DeepMind Model Card、Google AI 定价文档、Gemini API thinking 文档、What LLM 基准测试分析（2026.2.20）、PCMag 报道、Revolution in AI 开发者测评、人人都是产品经理深度评测、InfoQ 中文报道、Macaron 定价对比分析、Reddit r/GeminiAI 及 r/GithubCopilot 讨论帖、Hacker News 讨论（item #47074735）、GitHub google-gemini/gemini-cli Discussion #19724 及 Issue #19532、Awesome Agents 配额问题汇总、GitHub Changelog（2026.2.19）。