扒完全网测评,Gemini 3.1 Pro 到底能不能打?
Google 又放大招了。
2 月 19 号,Gemini 3.1 Pro 正式发布。Google 的原话是"our most advanced model for complex tasks"。中文科技媒体这边直接给了个"六边形战士"的标签,InfoQ 的标题更猛——"代码界新王登基!血洗 Claude 与 GPT,12 项基准测试第一!"
与此同时,GitHub 上的开发者在骂街:说好的"今日可用",我作为付费用户等了四天还没拿到权限。HN(Hacker News)上有前 Google 工程师说,这是他用过"最让人抓狂的开发模型"。
夸的和骂的说的好像不是同一个东西。
所以我把能找到的中英文测评、基准数据、开发者论坛反馈、券商/媒体报道过了一遍,试着拼出一个完整的画面。
01 先把几个关键数据摆出来
Gemini 3.1 Pro 对比 3.0 Pro 的跑分提升:
| 基准测试 | 3.0 Pro | 3.1 Pro | 提升幅度 |
|---|---|---|---|
| ARC-AGI-2(抽象推理) | 31.1% | 77.1% | +46pp,翻了一倍多 |
| GPQA Diamond(科学推理) | 91.9% | 94.3% | +2.4pp |
| SWE-Bench Verified(代码修复) | 76.2% | 80.6% | +4.4pp |
| Terminal-Bench 2.0(终端编码) | 56.9% | 68.5% | +11.6pp |
| BrowseComp(搜索 Agent) | 59.2% | 85.9% | +26.7pp |
| MCP Atlas(工具调用) | 54.1% | 69.2% | +15.1pp |
| HLE(学术推理) | 37.5% | 44.4% | +6.9pp |
以上数据均来自 Google DeepMind 官方 Model Card,评测配置为 Thinking (High)。
ARC-AGI-2 那个数字最炸——从 31.1% 到 77.1%,直接翻了一倍多。这不是那种"提了两三个点"的微调升级,是跨代级别的跳跃。
再看和竞品的横向对比:
| 基准测试 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | 68.8% | 52.9% |
| GPQA Diamond | 94.3% | 91.3% | 92.4% |
| SWE-Bench Verified | 80.6% | 80.8% | 80.0% |
| Humanity's Last Exam | 44.4% | 40.0% | 34.5% |
| BrowseComp(搜索 Agent) | 85.9% | 84.0% | 65.8% |
| Terminal-Bench 2.0 | 68.5% | 65.4% | 54.0% |
| GDPval-AA Elo(专家偏好) | 1,317 | 1,606 | 1,462 |
以上数据均来自 Google DeepMind Model Card,各模型使用最高思考档位。
PCMag 的报道称 Gemini 3.1 Pro 在 19 项基准测试里赢了 12 项。数字确实好看。
但注意最后一行——GDPval-AA Elo,也就是专家盲评偏好。Opus 4.6 的 1,606 远超 Gemini 的 1,317,差了将近 300 分。跑分赢了,不代表专家用起来也满意。这个差距后面会展开说。
02 Google 官方在强调什么
翻了一下 Google 的官方博客和 Model Card,他们在反复强调几件事:
推理能力的飞跃。 ARC-AGI-2 从 31% 到 77%,这个数字被放在所有宣传材料的最前面。背后的技术原因是 HIGH 档 thinking_level 挂载了一个叫 Deep Think Mini 的推理引擎,模型在回答之前会先"想很久"。
100 万 token 上下文窗口。 这个 3.0 Pro 就有了,3.1 Pro 继续保留。在竞品里,Claude 的 100 万上下文只对 Tier 4 用户开放且在 beta 阶段,GPT-5.2 只有 40 万。Gemini 的 100 万是默认可用的。
6.4 万输出 token。 3.0 Pro 的实际输出经常在 2 万多 token 就截断了,开发者抱怨了很久。3.1 Pro 把上限提到 65,536 token。Reddit 上有人实测,输入 4.8 万 token 的代码,输出 5.5 万 token,没有截断。
原生多模态。 文本、图片、音频、视频、PDF 都可以直接扔进去。视频支持最长 1 小时(无音频)或 45 分钟(有音频),图片最多 3000 张。
定价不变。 跟 3.0 Pro 完全一样,$2/$12 每百万 token。等于说免费升级,换个 model ID 就行。
03 开发者论坛:吵翻了
这是最有意思的部分。官方在庆祝,开发者社区在打架。
Reddit(r/GeminiAI)——兴奋但谨慎。 一条标题为"Gemini 3.1 Pro finally solves the output limit issues"的帖子引发了不少讨论。开发者们对输出截断问题的解决明显松了一口气。但评论区也有人指出:幻觉率从 88%(3.0)降到了 50%(3.1),虽然砍了快一半,50% 的幻觉率仍然"高得离谱"。
Reddit(r/GithubCopilot)——质疑。 Gemini 3.1 Pro 同步进入了 GitHub Copilot。评论区的态度概括起来就一句话:"impressive benchmark, wake me up if it's any good"——跑分好看和好用是两回事,别拿跑分忽悠我。
Hacker News——前 Google 工程师开怼。 有一条高赞评论来自一位前 Google 工程师。他说 Gemini "一直是最让人沮丧的开发模型"——推理能力确实强,但工具调用不好使,经常陷入循环,思考 token 的输出不够透明,实际开发体验远不如 Claude。
GitHub 讨论区——怨声载道。 Gemini CLI 的讨论帖(#19724 和 #19532)里,付费用户集体投诉。问题集中在:
- 宣布"今日可用",但 CLI 用户几天后还看不到 3.1 Pro 的选项
- 配额消耗速度是 3.0 Pro 的两倍
- 触发 5 小时配额窗口三次后,被锁 90-99 小时
- API 密钥用户当天就能用,Google 账号登录的用户要排队
有人总结说:Gemini 3.1 Pro 是"你能用到的最好的模型——如果你能用上的话"。
04 独立测评者怎么说
抛开 Google 自己的宣传和开发者社区的抱怨,看看第三方的评价。
What LLM(基准测试分析站) 做了一份很详细的独立评测,结论很克制:"Gemini 3.1 Pro Preview is the strongest general-purpose model available as of February 2026"——范围最广的通用模型,但不是每个方向都最强。他们的测试对比的是 Claude Opus 4.5(当时最新版本),结论是编码场景 Claude 仍然有优势,纯数学场景 DeepSeek R2 更强(AIME 93.8% vs 91.2%)。不过,Google 官方 Model Card 给出的 SWE-Bench 数据(80.6% vs Opus 4.6 的 80.8%)显示差距已经缩小到 0.2 个百分点。
Revolution in AI(印度开发者博客) 的评价更偏体感:"stays with me more often than expected"——意思是在做复杂、多步骤的任务时,Gemini 3.1 Pro 不容易"跑偏"了。以前的模型做到一半经常突然忘记上下文、自相矛盾或者漏掉关键约束,这一代在连贯性上有明显进步。
PCMag 的报道标题直接说"Beats Rivals in Key AI Benchmarks",但正文里也承认,编码方面 Gemini 仍然落后于 Claude Opus 4.6。
人人都是产品经理 给了"六边形战士"的评价——意思是没有明显短板,每个方向都能打,但也没有哪个方向强到绝对碾压。
05 钱:便宜是真便宜
Gemini 3.1 Pro 的定价是这次讨论里争议最小的部分,因为确实便宜。
| 模型 | 输入价(每百万 token) | 输出价(每百万 token) | 上下文窗口 |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 100 万 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 100 万(Tier 4 beta) |
| Claude Opus 4.6 | $5.00 | $25.00 | 100 万(Tier 4 beta) |
| GPT-5.2 | $1.75 | $14.00 | 40 万 |
Gemini 3.1 Pro 的输出价是 Opus 4.6 的一半不到。按每月 5000 万 token 算,Gemini 比 Opus 省 $500/月。
不过这里有个坑。Gemini 3.1 Pro 的 thinking_level 默认是 HIGH,会触发 Deep Think Mini 推理引擎,产生大量"思考 token"。思考 token 按输出价计费,$12/百万。一次 HIGH 档请求可能产生 3 万推理 token,光推理就花 $0.36。如果你不手动把 thinking_level 调低,实际账单会比预期高不少。
还有一个细节:输入超过 20 万 token 后,价格自动跳档——输入从 $2 涨到 $4(翻倍),输出从 $12 涨到 $18(涨 50%)。100 万上下文窗口虽然大,但真用起来价格阶梯在那摆着。
06 它赢在哪
综合所有测评,Gemini 3.1 Pro 的优势区域集中在四个方向:
抽象推理。 ARC-AGI-2 的 77.1% 领先 Opus 4.6 八个百分点、领先 GPT-5.2 二十四个百分点。这种需要"从零推导新规律"的能力,3.1 Pro 确实拉开了差距。
视频理解。 独立评测站 What LLM 的测试中,Gemini 3.1 Pro 在 VideoMME(视频理解基准)上拿到 87.2%,领先 Claude 近 8 个百分点。Gemini 的原生多模态架构支持最长 1 小时视频输入,在视频分析、会议录像总结这类场景下有结构性优势。
性价比。 同级模型里价格最低,上下文窗口最大,输出 token 上限最高。对预算敏感的团队来说,这是最实际的优势。
Agent 能力。 BrowseComp(搜索 Agent)从 59.2% 跳到 85.9%,MCP Atlas(工具调用)从 54.1% 跳到 69.2%。如果你在搭智能体系统,这两个数字意味着 Gemini 在"自动上网查资料"和"调用外部工具"这两件事上进步巨大。
07 它输在哪
跑分赢了不代表什么都赢。有几个方向 Gemini 3.1 Pro 明确不是最优解。
专家偏好。 GDPval-AA Elo,Opus 4.6 得分 1,606,Gemini 只有 1,317,GPT-5.2 在中间(1,462)。这个测试是让行业专家盲评模型输出的质量。换句话说,跑分表上 Gemini 赢了,但专家看完两边的输出,大多数时候更喜欢 Claude 的回答。
这个矛盾怎么理解?我的猜测是:Gemini 在"解题"类任务上确实更强(有标准答案的那种),但在"生成"类任务上(写代码、写文章、做分析这种需要品质判断的),Claude 的输出质量仍然更高。
工具调用稳定性。 多个开发者反馈,Gemini 3.1 Pro 在 LangChain4j、n8n、RooCode、Cursor 等框架里的 tool calling 有 bug。Vercel AI SDK 的结构化输出和代码执行功能也有兼容性问题。如果你的 Agent 架构依赖 function calling,现阶段风险不小。
编码体验。 SWE-Bench 跑分和 Claude 几乎打平(80.6% vs 80.8%),但多个开发者反馈实际编码体验差距比跑分显示的更大。前面提到的那位前 Google 工程师说 Gemini "经常陷入循环",另一些人说在复杂工具链场景下 Claude 更"听话"。
长上下文的真实表现。 100 万上下文窗口是宣传亮点,但 Google Model Card 里自己公布的 MRCR v2 数据不那么好看:在 12.8 万 token 长度下,8 根"针"的精确检索准确率是 84.9%(和 Opus 4.6 的 84.0% 持平);但到了 100 万 token 长度,准确率骤降到 26.3%——而且这个数字跟 3.0 Pro 完全一样,没有任何提升。意思是你塞了 100 万 token 进去,模型能"大致理解"但"精确记忆"的能力很有限。
08 发布翻车:一个值得记住的教训
Gemini 3.1 Pro 的发布过程本身就是一个反面案例。
Google 在 2 月 19 号官宣"today available"。但 Gemini CLI 的付费用户发现——模型列表里压根没有 gemini-3.1-pro-preview 这个选项。GitHub issue #19532 里开发者贴出了截图:CLI 只显示旧版模型。
与此同时,API 密钥用户早就在正常使用了。Google Antigravity 的用户也几乎第一时间拿到了权限。
"说好的今日可用,为什么我花了钱反而排在后面?"——这是 GitHub 讨论里出现频率最高的质问。
更离谱的是配额问题。有用户报告,切换到 3.1 Pro 后配额消耗速度是 3.0 Pro 的两倍。部分用户在正常使用后被锁号 90-99 小时。发布第一天,有用户测到单次请求延迟 104 秒。
这些问题在发布后的几天内逐渐缓解了。但它提醒了一件事:模型再好,如果上线节奏没协调好,开发者信任是会受损的。
09 几个容易被忽略的细节
在大量测评里,有几个细节比跑分本身更值得注意。
Thinking token 是个隐藏成本。 默认 thinking_level 是 HIGH,模型每次请求都会先"深度思考",产生大量推理 token。这些 token 按输出价计费。Reddit 上有开发者说:"我以为这模型很便宜,结果第一个月账单比预期高了三倍。"——原因就是没注意 thinking_level 的默认值。
幻觉率下降了,但还是高。 Reddit(r/GithubCopilot)讨论里有用户引用数据:Gemini 3.0 的幻觉率约 88%,3.1 降到了约 50%。降了快一半,但 50% 意味着每两次回答就可能有一次包含不准确的信息。这个数字来自社区用户的测试,具体口径和评测方法未公开,不同场景下的幻觉表现可能差异很大,仅供参考。
Preview 状态意味着没有 SLA。 Google 自己也在提醒:这是预览版,不是正式发布。Preview 阶段模型权重可能会被更新,行为可能会变化,不保证稳定性。跑在生产环境上的团队需要评估这个风险。
Apple 可能很快用上。 Bloomberg 报道了苹果和 Google 的多年合作协议,计划在 iOS 26.4 中用 Gemini 技术驱动 Siri。如果这个消息落地,Gemini 的能力会直接进入数亿台 iPhone,影响范围远超开发者圈子。
10 所以到底能不能打?
综合十几个不同来源、不同角度的测评,我的判断:
能打。而且在好几个方向上打得很漂亮。
ARC-AGI-2 的 77.1% 是实打实的推理能力领先,GPQA Diamond 的 94.3% 在科学推理上也拉开了差距。100 万默认上下文 + $2/$12 的定价,在性价比维度上没有对手。对从 3.0 Pro 升级的用户来说,同价换代,全面提升,没有不换的理由。
但"六边形战士"的说法需要打个折扣。
在专家偏好这个最接近"实际好不好用"的指标上,Claude Opus 4.6 仍然遥遥领先。在编码体验上,多个独立开发者反馈 Claude 更稳定、更可控。在工具调用上,3.1 Pro 目前有不少兼容性 bug。在长上下文的精确检索上,100 万 token 的实际效果远不如宣传那么美好。
一句话总结:如果你要的是"在最多方向上都够用、价格还便宜"的通用模型,Gemini 3.1 Pro 是当前最优选。如果你要的是某个特定方向上的最强表现——比如编码质量选 Claude Opus 4.6,比如纯数学推理选 DeepSeek R2——Gemini 3.1 Pro 不一定是最优解。
没有一个模型能在所有方向上同时最强。这个结论在今天依然成立。
11 不同人群的建议
在用 Gemini 3.0 Pro 的开发者: 直接换。Model ID 从 gemini-3-pro 改成 gemini-3.1-pro-preview,价格不变,能力全面提升。唯一要注意的是把 thinking_level 从默认的 HIGH 改成 MEDIUM 试试,大概率够用还省钱。
在用 Claude 或 GPT 的开发者: 不用急着换。先拿你实际的 prompt 跑一轮对比。Gemini 赢在价格和上下文窗口,Claude 赢在输出质量和编码体验,各有各的强项。如果你的场景对成本敏感或需要长上下文处理,值得认真评估。
做智能体/Agent 的团队: 等一等。工具调用的兼容性问题还没解决完,多个主流框架都有 bug 报告。等这波修完了再切不迟。
技术写作者和内容创作者: 可以试试 Gemini 3.1 Pro 的长文档总结和多模态分析能力。100 万上下文对处理大量资料做综述有实际帮助。但生成的内容还是要仔细核查,幻觉率还没降到让人完全放心的水平。
普通用户: 如果你有 Google AI Pro 或 Ultra 订阅,Gemini APP 里已经可以用了。免费用户也有限额可以体验。拿你平时问 AI 的那些问题跑一遍,感受比看跑分表直接。
不同的人站在不同的立场,看到的 Gemini 3.1 Pro 是完全不同的样子。Google 看到的是"19 项基准里赢了 12 项",开发者看到的是"付了钱还被锁号四天",跑分网站看到的是"最有性价比的前沿模型",实际写代码的人看到的是"推理确实强了,但工具调用还是不如 Claude 顺手"。
哪个才是真实的 Gemini 3.1 Pro?
可能都是。
别人的测评是地图,你自己的体验才是路。
本文信息来源:Google 官方博客(2026.2.19)、Google DeepMind Model Card、Google AI 定价文档、Gemini API thinking 文档、What LLM 基准测试分析(2026.2.20)、PCMag 报道、Revolution in AI 开发者测评、人人都是产品经理深度评测、InfoQ 中文报道、Macaron 定价对比分析、Reddit r/GeminiAI 及 r/GithubCopilot 讨论帖、Hacker News 讨论(item #47074735)、GitHub google-gemini/gemini-cli Discussion #19724 及 Issue #19532、Awesome Agents 配额问题汇总、GitHub Changelog(2026.2.19)。