深夜放榜:GPT-5.4 mini 和 nano 到底有多能打?我翻了翻推特和 GitHub
昨晚 OpenAI 悄无声息地扔出了 GPT-5.4 mini 和 nano。没有预热,直接就上线了。
大家最关心的肯定是价格和速度。今天一早我爬起来刷了推特、Reddit 和 HackerNews,想看看第一批当小白鼠的开发者怎么说。结论挺有意思的:大家不再死盯着满血版模型看了,这种“便宜又大碗”的小模型反倒成了香饽饽。
账本算得很明白
先看看价目表。GPT-5.4 mini 输入 0.75 美元/百万 token,输出 4.50 美元。最小的 nano 更绝,输入只要 0.2 美元,输出 1.25 美元。
如果你觉得数字没概念,推特上有个开发者算了一笔账:相比上一代 GPT-5 mini,新版速度直接翻倍。而在 Codex 里,跑一个 mini 任务只消耗满血版 GPT-5.4 约 30% 的额度。等于说同样的钱,你能干原来三倍的活。
性能数据也咬得很紧。我查了一下各大基准测试的具体跑分,只能说,比起上一代,这次简直是降维打击。
在最硬核的代码修复测试 SWE-Bench Pro 上,mini 跑到了 54.4%,离满血版 GPT-5.4 的 57.7% 只有一步之遥。连最小的 nano 都拿下了 52.4%,直接把上一代的 GPT-5 mini(45.7%)按在地上摩擦。
除了写代码,这俩模型的“干活”能力也是大家热议的焦点。在考察复杂工具链使用的 Toolathlon 测试里,mini 得分 42.9%,比上一代翻了快一倍;针对控制电脑能力的 OSWorld-Verified 测试,mini 拿到了 72.1%,紧咬满血版的 75%。
不过,分数也暴露出 nano 的短板。在需要看屏幕识别 UI 的 OSWorld-Verified 操作里,nano 只拿了 39.0%。说明纯文字逻辑是它的舒适区,一旦涉及复杂的视觉推理,它就有点不够看了。
都在聊“包工头与打工人”
我看网上的讨论,发现大家现在的开发思路变了。
大家在 HackerNews 和社区里讨论最多的词,不再是怎么把大模型调教得更聪明,而是“子智能体”(Subagent)。
网上很多人分享了最新的架构心得:用满血版 GPT-5.4 当总包工头,专门负责想架构、做复杂决策。剩下那些搜代码库、修小 bug、跑测试、格式化文档的碎活,一口气分发给好几个 mini 并行处理。
这就是为什么 nano 这种看起来“脑容量不大”的模型会被单拎出来。对于单纯的分类、信息提取或者给搜索结果排序,用 nano 足够了,成本低到几乎可以忽略不计。
也有人吐槽长文本拉胯
当然,网上的声音也不全是一片叫好。
推特上有不少人在吐槽长文本表现。有人测了 128k 以上的超长上下文,发现 mini 的检索精度断崖式下跌。如果你指望把它当成文件堆里的超级检索器,读完几十万字还能精准找到某一句话,大概率会失望。这种需要死磕逻辑追踪的脏活,还得加钱上满血版。
另外就是老生常谈的焦虑。GitHub 上有开发者半开玩笑半认真地说:“它写代码这么溜,那我以后干嘛?全职搞系统架构吗?”
门槛被踩烂了
我真的不知道该怎么评价这个演进速度。几个月前,让小模型搞定复杂的代码修复还显得有点科幻。现在,它已经成了日常工具。
这其实比发一个考满分的超级大模型更有杀伤力。大模型负责摸高,决定智力的天花板;而 mini 和 nano 负责下沉,把成本墙一砖一砖拆掉。以前大厂才玩得起的复杂 Agent 系统,现在个人开发者拿小模型也能低成本跑起来。
属于平民玩家的 Agent 时代,可能真的来了。
参考链接: