2026 年 AI 大模型的新战场不是智商,是速度
2 月 5 号,OpenAI 发了 GPT-5.3 Codex,比 5.2 快 25%。同一天,Anthropic 发了 Opus 4.6。两天后,Opus 4.6 又追加了 Fast 模式,速度翻 2.5 倍。
Google 那边更不用说了,Gemini Flash 系列从一开始就是冲着速度去的。
三家不约而同地把"快"当成了卖点。这不是巧合。
为什么现在开始卷速度
过去三年,大模型的竞争逻辑是"谁更聪明"。MMLU 分数高几个点,SWE-bench 多解几道题,就是新闻标题。
但到了 2026 年初,各家模型的智能水平已经拉不开太大差距了。Opus 4.6 在 SWE-bench Verified 上拿了 79.4%,GPT-5.3 Codex 在 SWE-bench Pro 上拿了 78.2%。变体不同没法直接比,但量级是一样的。
GPQA Diamond(研究生级推理),Opus 4.6 拿 77.3%,GPT-5.3 拿 73.8%。有差距,但不是代差。
当智能水平趋同,速度就变成了新的差异化维度。就像手机芯片,跑分差距缩小之后,厂商开始卷功耗和发热。
Agent 是速度军备竞赛的催化剂
还有一个更深层的原因:Agent。
2025 年下半年到 2026 年初,AI Agent 从概念走向了实用。Anthropic 搞了 Agent Teams,OpenAI 在 Codex App 里做了交互式协作,Google 在 Gemini 里集成了多步骤任务。
Agent 和普通对话的最大区别是:一个任务要调用模型几十甚至几百次。
你跟 ChatGPT 聊天,一问一答,延迟 10 秒你能忍。但如果一个 Agent 要自动修 50 个文件的 bug,每个文件调用模型两三次,10 秒 × 150 次 = 25 分钟。同样的任务 Fast 模式下 4 秒 × 150 次 = 10 分钟。
这个差距在 Agent 场景下会被成倍放大。
Anthropic 的那个"2 万美元写编译器"实验就是例子。16 个 Agent 并行跑了两周,消耗 20 亿 token。如果推理速度能提升 2.5 倍,项目周期缩短到不到一周,仅 GPU 机时就能省一大笔。
三家的速度策略
三家走的路线不一样:
Anthropic:同模型双速度。 Opus 4.6 一个模型两种模式,Fast 和 Standard。用户不需要换模型,加个参数就行。好处是迁移成本低,坏处是加速上限受限于单模型架构。
OpenAI:每代更快。 GPT-5.3 比 5.2 快 25%,GPT-5.2 比 5.0 快了不少。每发一个新版本都顺带提速。好处是持续进步,坏处是你得等下一代。
Google:大小模型矩阵。 Pro 负责聪明,Flash 负责快,Nano 负责端侧部署。三条产品线并行。好处是覆盖场景全,坏处是开发者要在一堆型号里挑。
哪种策略更好?看你是什么角色。
如果你是应用开发者,Anthropic 的方案最友好——同一个模型 ID,一个参数切速度。如果你是做基础设施的,Google 的方案更灵活——不同场景调用不同模型。如果你什么都不想管,OpenAI 的方案最省心——每次升级自动变快。
速度定价会成为常态
一个值得注意的趋势:速度正在成为一个独立的定价维度。
过去大模型定价只看 token 数量。现在 Anthropic 给同一个模型开了两个速度档位,意味着"你愿意为更快的推理多付钱吗?"这个问题已经摆上了桌面。
这和云计算的演进路径很像。AWS 的 EC2 一开始只有按小时收费,后来出了按秒收费、Spot 实例、Reserved 实例。定价维度越来越多,用户能优化的空间也越来越大。
大模型 API 可能也会走这条路。以后你调 API 的时候,可能要同时指定:
- 模型名称(智能水平)
- 速度档位(延迟 vs 吞吐)
- 思考深度(Extended Thinking 预算)
- 一致性要求(temperature)
四个旋钮。比现在复杂,但也比现在灵活。
对开发者的实际影响
说点落地的。
Agent 框架需要速度感知。 现在大部分 Agent 框架(LangChain、CrewAI)在调模型的时候不区分任务复杂度。所有步骤用同一个模型、同一个速度。以后合理的做法是,简单步骤用 Fast 模式,关键决策用 Standard 或 Extended。框架需要支持这种"按步骤选模式"的能力。
延迟预算要纳入系统设计。 做过后端开发的人都知道,接口有响应时间的 SLA。现在做 AI 应用也一样了。如果你的产品承诺"3 秒内给用户反馈",那你的模型调用就必须在 3 秒内完成,这会倒逼你选更快的模式或更小的模型。
成本优化的空间变大了。 同一个任务,用 Standard 模式跑 10 秒花 $0.01,用 Fast 模式跑 4 秒花 $0.012。如果你的业务是 IO 密集型的(等模型回来的时间里 GPU 在空转),Fast 模式的整体效率可能更高,即使单次调用贵一点。
这场军备竞赛的终局
速度竞争会持续到什么时候?
我猜是到推理延迟低于人类反应阈值为止。人类对延迟的感知大概是 200-300 毫秒——低于这个值,你感觉不到在等。
现在最快的大模型在简单任务上的首 token 延迟大约在 500 毫秒到 1 秒。要降到 200 毫秒以下,还需要硬件和算法两方面的突破。
到了那个点,速度就不再是卖点了,就像今天没人把"网页加载速度"当卖点一样——因为所有人都够快了。
那时候的竞争可能会转向别的维度。成本?可靠性?可定制性?现在说不好。但至少在 2026 年,速度还是主旋律。