2026 年 AI 大模型的新战场不是智商，是速度

2 月 5 号，OpenAI 发了 GPT-5.3 Codex，比 5.2 快 25%。同一天，Anthropic 发了 Opus 4.6。两天后，Opus 4.6 又追加了 Fast 模式，速度翻 2.5 倍。

Google 那边更不用说了，Gemini Flash 系列从一开始就是冲着速度去的。

三家不约而同地把"快"当成了卖点。这不是巧合。

为什么现在开始卷速度

过去三年，大模型的竞争逻辑是"谁更聪明"。MMLU 分数高几个点，SWE-bench 多解几道题，就是新闻标题。

但到了 2026 年初，各家模型的智能水平已经拉不开太大差距了。Opus 4.6 在 SWE-bench Verified 上拿了 79.4%，GPT-5.3 Codex 在 SWE-bench Pro 上拿了 78.2%。变体不同没法直接比，但量级是一样的。

GPQA Diamond（研究生级推理），Opus 4.6 拿 77.3%，GPT-5.3 拿 73.8%。有差距，但不是代差。

当智能水平趋同，速度就变成了新的差异化维度。就像手机芯片，跑分差距缩小之后，厂商开始卷功耗和发热。

Agent 是速度军备竞赛的催化剂

还有一个更深层的原因：Agent。

2025 年下半年到 2026 年初，AI Agent 从概念走向了实用。Anthropic 搞了 Agent Teams，OpenAI 在 Codex App 里做了交互式协作，Google 在 Gemini 里集成了多步骤任务。

Agent 和普通对话的最大区别是：一个任务要调用模型几十甚至几百次。

你跟 ChatGPT 聊天，一问一答，延迟 10 秒你能忍。但如果一个 Agent 要自动修 50 个文件的 bug，每个文件调用模型两三次，10 秒 × 150 次 = 25 分钟。同样的任务 Fast 模式下 4 秒 × 150 次 = 10 分钟。

这个差距在 Agent 场景下会被成倍放大。

Anthropic 的那个"2 万美元写编译器"实验就是例子。16 个 Agent 并行跑了两周，消耗 20 亿 token。如果推理速度能提升 2.5 倍，项目周期缩短到不到一周，仅 GPU 机时就能省一大笔。

三家的速度策略

三家走的路线不一样：

Anthropic：同模型双速度。 Opus 4.6 一个模型两种模式，Fast 和 Standard。用户不需要换模型，加个参数就行。好处是迁移成本低，坏处是加速上限受限于单模型架构。

OpenAI：每代更快。 GPT-5.3 比 5.2 快 25%，GPT-5.2 比 5.0 快了不少。每发一个新版本都顺带提速。好处是持续进步，坏处是你得等下一代。

Google：大小模型矩阵。 Pro 负责聪明，Flash 负责快，Nano 负责端侧部署。三条产品线并行。好处是覆盖场景全，坏处是开发者要在一堆型号里挑。

哪种策略更好？看你是什么角色。

如果你是应用开发者，Anthropic 的方案最友好——同一个模型 ID，一个参数切速度。如果你是做基础设施的，Google 的方案更灵活——不同场景调用不同模型。如果你什么都不想管，OpenAI 的方案最省心——每次升级自动变快。

速度定价会成为常态

一个值得注意的趋势：速度正在成为一个独立的定价维度。

过去大模型定价只看 token 数量。现在 Anthropic 给同一个模型开了两个速度档位，意味着"你愿意为更快的推理多付钱吗？"这个问题已经摆上了桌面。

这和云计算的演进路径很像。AWS 的 EC2 一开始只有按小时收费，后来出了按秒收费、Spot 实例、Reserved 实例。定价维度越来越多，用户能优化的空间也越来越大。

大模型 API 可能也会走这条路。以后你调 API 的时候，可能要同时指定：

模型名称（智能水平）
速度档位（延迟 vs 吞吐）
思考深度（Extended Thinking 预算）
一致性要求（temperature）

四个旋钮。比现在复杂，但也比现在灵活。

对开发者的实际影响

说点落地的。

Agent 框架需要速度感知。 现在大部分 Agent 框架（LangChain、CrewAI）在调模型的时候不区分任务复杂度。所有步骤用同一个模型、同一个速度。以后合理的做法是，简单步骤用 Fast 模式，关键决策用 Standard 或 Extended。框架需要支持这种"按步骤选模式"的能力。

延迟预算要纳入系统设计。 做过后端开发的人都知道，接口有响应时间的 SLA。现在做 AI 应用也一样了。如果你的产品承诺"3 秒内给用户反馈"，那你的模型调用就必须在 3 秒内完成，这会倒逼你选更快的模式或更小的模型。

成本优化的空间变大了。 同一个任务，用 Standard 模式跑 10 秒花 $0.01，用 Fast 模式跑 4 秒花 $0.012。如果你的业务是 IO 密集型的（等模型回来的时间里 GPU 在空转），Fast 模式的整体效率可能更高，即使单次调用贵一点。

这场军备竞赛的终局

速度竞争会持续到什么时候？

我猜是到推理延迟低于人类反应阈值为止。人类对延迟的感知大概是 200-300 毫秒——低于这个值，你感觉不到在等。

现在最快的大模型在简单任务上的首 token 延迟大约在 500 毫秒到 1 秒。要降到 200 毫秒以下，还需要硬件和算法两方面的突破。

到了那个点，速度就不再是卖点了，就像今天没人把"网页加载速度"当卖点一样——因为所有人都够快了。

那时候的竞争可能会转向别的维度。成本？可靠性？可定制性？现在说不好。但至少在 2026 年，速度还是主旋律。