深夜放榜：GPT-5.4 mini 和 nano 到底有多能打？我翻了翻推特和 GitHub

昨晚 OpenAI 悄无声息地扔出了 GPT-5.4 mini 和 nano。没有预热，直接就上线了。

大家最关心的肯定是价格和速度。今天一早我爬起来刷了推特、Reddit 和 HackerNews，想看看第一批当小白鼠的开发者怎么说。结论挺有意思的：大家不再死盯着满血版模型看了，这种“便宜又大碗”的小模型反倒成了香饽饽。

先看看价目表。GPT-5.4 mini 输入 0.75 美元/百万 token，输出 4.50 美元。最小的 nano 更绝，输入只要 0.2 美元，输出 1.25 美元。

如果你觉得数字没概念，推特上有个开发者算了一笔账：相比上一代 GPT-5 mini，新版速度直接翻倍。而在 Codex 里，跑一个 mini 任务只消耗满血版 GPT-5.4 约 30% 的额度。等于说同样的钱，你能干原来三倍的活。

性能数据也咬得很紧。我查了一下各大基准测试的具体跑分，只能说，比起上一代，这次简直是降维打击。

在最硬核的代码修复测试 SWE-Bench Pro 上，mini 跑到了 54.4%，离满血版 GPT-5.4 的 57.7% 只有一步之遥。连最小的 nano 都拿下了 52.4%，直接把上一代的 GPT-5 mini（45.7%）按在地上摩擦。

除了写代码，这俩模型的“干活”能力也是大家热议的焦点。在考察复杂工具链使用的 Toolathlon 测试里，mini 得分 42.9%，比上一代翻了快一倍；针对控制电脑能力的 OSWorld-Verified 测试，mini 拿到了 72.1%，紧咬满血版的 75%。

不过，分数也暴露出 nano 的短板。在需要看屏幕识别 UI 的 OSWorld-Verified 操作里，nano 只拿了 39.0%。说明纯文字逻辑是它的舒适区，一旦涉及复杂的视觉推理，它就有点不够看了。

我看网上的讨论，发现大家现在的开发思路变了。

大家在 HackerNews 和社区里讨论最多的词，不再是怎么把大模型调教得更聪明，而是“子智能体”（Subagent）。

网上很多人分享了最新的架构心得：用满血版 GPT-5.4 当总包工头，专门负责想架构、做复杂决策。剩下那些搜代码库、修小 bug、跑测试、格式化文档的碎活，一口气分发给好几个 mini 并行处理。

这就是为什么 nano 这种看起来“脑容量不大”的模型会被单拎出来。对于单纯的分类、信息提取或者给搜索结果排序，用 nano 足够了，成本低到几乎可以忽略不计。

当然，网上的声音也不全是一片叫好。

推特上有不少人在吐槽长文本表现。有人测了 128k 以上的超长上下文，发现 mini 的检索精度断崖式下跌。如果你指望把它当成文件堆里的超级检索器，读完几十万字还能精准找到某一句话，大概率会失望。这种需要死磕逻辑追踪的脏活，还得加钱上满血版。

另外就是老生常谈的焦虑。GitHub 上有开发者半开玩笑半认真地说：“它写代码这么溜，那我以后干嘛？全职搞系统架构吗？”

我真的不知道该怎么评价这个演进速度。几个月前，让小模型搞定复杂的代码修复还显得有点科幻。现在，它已经成了日常工具。

这其实比发一个考满分的超级大模型更有杀伤力。大模型负责摸高，决定智力的天花板；而 mini 和 nano 负责下沉，把成本墙一砖一砖拆掉。以前大厂才玩得起的复杂 Agent 系统，现在个人开发者拿小模型也能低成本跑起来。

属于平民玩家的 Agent 时代，可能真的来了。

参考链接：