GPT-5.5炸场!Opus 4.7被碾压,最强“赛博牛马”诞生

GPT-5.5炸场!Opus 4.7被碾压,最强“赛博牛马”诞生

【导读】GPT-5.5 突袭发布,没有花里胡哨的预热,直接把桌子掀了。最刺激的不是跑分榜单上的数字,而是网络上各路内测大神的实测反馈:从 20 分钟理清“屎山代码”到 USB 直连写硬件 App,这已经不是一个聊天机器人,而是个真正的“赛博牛马”。更离谱的是,即使 API 涨价一倍,所有人依然直呼“真香”。

前几天 Anthropic 的 Claude Opus 4.7 刚坐上王座,大家还没从震惊中缓过来,GPT-5.5 转头就把榜单洗了一遍。

但这次的发布,味道和以前完全不一样。OpenAI 不再执着于测“奥数题”比拼智商上限,而是把核心定位改成了“为真实工作而生的智能”(A new class of intelligence for real work)。

01 跑分不再卷智商,这次全在卷“牛马指数”

如果说过去测试看的是“这道题你会不会做”,那现在的测试看的就是“这堆破活儿你能干多好”。

仔细看 OpenAI 放出的跑分,最得意的全都是“打工”指标:

  • Terminal-Bench 2.0(衡量复杂命令行工作流):拿下 82.7%。作为对比,前任最强竞品 Opus 4.7 只有 69.4%。
  • OSWorld-Verified(真实电脑操作测试):直接拿到 78.7%。这等于是在看模型能不能自己在电脑上切窗口、点按钮、跑流程。
  • Tau2-bench Telecom(电信业务流程):甚至连提示词都不用专门调(without prompt tuning),直接跑出了 98.0% 的变态成绩。

它不再需要你像带实习生一样一步步拆解任务。只要给目标,它自己会检查输出、调用工具、补充没写完的代码。

02 涨价整整一倍,为什么这群人还在喊“真香”?

看完实力,必须谈钱。

GPT-5.5 的 API 定价:每百万输入 Token 5 美元,每百万输出 Token 30 美元。比起上一代的 5.4,整整翻了一倍

价格涨了,怎么反而一片叫好?因为 Token 效率高得离谱。

这背后是英伟达的功劳。GPT-5.5 和英伟达 GB200、GB300 NVL72 系统进行了联合设计,硬生生把 token 生成速度提高了近 20%。干同样的活,GPT-5.5 用的 Token 比 5.4 甚至 Opus 4.7 都要少得多。

难怪一位参与早期测试的英伟达工程师在失去访问权限后,留下一句神评:

“失去对 GPT-5.5 的访问权限,感觉就像被截肢了一样。”(Losing access to GPT-5.5 feels like I've had a limb amputated.)

老黄(黄仁勋)也是行动派,连夜发全员邮件,把接入了 GPT-5.5 的 Codex 推给了英伟达全公司。

03 网友实测大赏:这玩意儿离谱到像个真人同事

发布会的数据只是开胃菜。去全网刷一圈这群首批拿到权限的大 V 实测,你就会明白为什么 OpenAI 敢卖这么贵:

1. 20分钟一次搞定“屎山代码”合并 开发者、设计师 Pietro Schirano 扔给它一个极度混乱的工程任务:对比两个分支,从主分支开一个新分支,并确保另一条分支的代码被完美整合进去。

Pietro 直接惊呼:“它一次就搞定了!只花了大约 20 分钟。这种混乱、需要高度上下文联系的现实世界工程工作,人类通常要花好几个小时极其小心地处理……它不仅让你在原有的工作上变快,它让全新的工作类别成为可能。”

2. “黑”进硬件直接写 App 还是 Pietro,他干了一件极其硬核的事——用 USB 线把他的 Flipper Zero 连上电脑,然后丢给 GPT-5.5 一个想法。结果?模型自己写代码、编译,通过 USB 直接把 App 推送到了硬件设备上。

“这是我有史以来用过杠杆率最高的工具。第一次,我不再感到被模型的能力限制,而是被我自己的想象力限制。硬件实验的时代开始了。”

3. 像人类顶级工程师一样“重构” 初创公司 CEO Dan Shipper 测试了它的“改 Bug”能力。他把 App 上线后发现的一个复杂问题(包含完好状态的上下文)丢给模型,想看看它能不能像他手下的顶尖工程师那样做出极其复杂的重构决策。

Dan 感慨:“这是我第一次在一个编程模型身上感受到真正的‘概念清晰度’。GPT-5.4 根本做不到,但 5.5 做到了。它甚至能提前预判测试和审查的需求。”

4. 拥有自己的“人格”,不说废话 知名 AI 博主 Matthew Berman 已经偷偷测了两周,他敏锐地发现了模型在沟通上的进化。

“它不仅是原始智商变高了,它甚至有了‘个性’。它的回复更短、更像人类,少了很多以前那种机械式的正式客套话。”

5. 科研圈里的超级外脑 不仅是写代码,连 OpenAI 的研究员 Noam Brown 都在社交媒体上自嘲,有了 GPT-5.5,他现在也能“像专业人士一样写 CUDA 内核来跑研究实验了”。 在硬核科研界更是直接当牛马用:

  • 数学助理教授 Bartosz Naskręcki:仅用 11 分钟,就让它手搓出了一个代数几何的可视化应用。
  • 免疫学教授 Derya Unutmaz:直接扔给它包含 28,000 个基因的表达数据,它不仅能分析,最后还产出了一份完整的研究报告,省了团队几个月的时间。

写在最后

这短短 8 天的 AI 圈,简直像在坐过山车。

前脚 Anthropic 的 Opus 4.7 刚在代码评测里发难,后脚 GPT-5.5 就带着碾压级的工程能力杀了回来。

看完这些真机实测,最大的感受是:以前我们是在用工具,现在我们是在招同事。跑分已经不重要了,真正的 Agent 时代,谁能替人类把脏活累活包圆了,谁才是真正的王者。


文章参考链接

  1. https://mp.weixin.qq.com/s/hYEtev-k7_79StH5zvK9WQ
  2. https://mp.weixin.qq.com/s/mgHr9BOJVv883fw96_nZlA
  3. https://mp.weixin.qq.com/s/5n5cVeEaqDRFcBKqmOHntg
  4. https://mp.weixin.qq.com/s/RwlmSA-VPhzOBxZE1AWf_A
← 返回博客列表