GPT-5.5出来之后,我第一次认真觉得AI开始像同事了

GPT-5.5出来之后,我第一次认真觉得AI开始像同事了

GPT-5.5 发布那天,我看了不少资料,也翻了很多首批测试反馈。看完以后,我脑子里一直绕着一个感觉:这次好像不是模型又涨了几分,而是它开始更像“同事”了。

这话听起来有点夸张,但我真是这么觉得的。

以前我们聊大模型,很容易把重点放在“它更聪明了吗”。会不会写代码,会不会解题,会不会回答得更完整。这些当然重要,但说到底,它们还是停留在“你问,它答”。

你丢给它一个问题,它给你一个回答。
有时回答得漂亮,有时让人惊喜,但流程基本还在你手里。

GPT-5.5 给我的不一样,不是它把答案写得更漂亮,而是它更像在接任务。

OpenAI 这次给它的定位也挺直接,说它是“为真实工作而生的新一类智能”。这句话我一开始其实觉得有点营销味,可看完几组案例之后,又觉得他们这次可能真不是在随便写文案。

有人拿它去处理高上下文、很乱的工程任务,它不是只给建议,而是能把事情往前推;有人让它碰硬件设备,它不仅能写,还能配合环境把应用真的跑起来;还有科研人员把它拿去做数学可视化和数据分析,结果不是“它提供了一个方向”,而是“它把事情做出了一半”。

我觉得这里面的差别,真的挺大。

以前的大模型更像一个特别能说、特别能写的助手。你可以问它、催它、纠正它,但流程还是得你自己盯着。GPT-5.5 至少在这轮反馈里,开始显得像一个你把任务交过去,它能自己消化一部分复杂度的角色。

这就是我说它像“同事”的原因。

不是因为它像人,而是因为它开始像一个会接活的人。

最让我不适应的,不是它更聪明了,而是它更会做了

很多人会被那些 benchmark 吸引,比如 Terminal-Bench 2.0OSWorld-VerifiedGDPval。这些指标当然重要,但对我来说,真正让我改观的不是分数,而是那些很具体的测试场景。

比如它在代码场景里,不再只是补一小段,而是开始理解上下文、推进修改。
比如它在电脑操作场景里,不再只是告诉你“下一步该点哪里”,而是更像在自己把流程往下跑。
再比如科研辅助场景,它不只是把文案写得像回事,而是能真的帮忙往前推。

这种变化很微妙。

你很难用一句“更强了”把它说清楚。
更准确一点的说法也许是:它开始从回答层,往执行层挪了。

当然,这事一点也不浪漫

它很贵。API 价格直接翻倍。只看单价的话,确实会让人皱眉。

所以我特别能理解为什么很多人一边惊叹,一边又骂它贵。
问题是,越看那些真实测试,你越会明白大家为什么一边嫌贵,一边又觉得值。

因为如果一个模型能少返工、少重试、少让你半夜接管,那么它卖的就不只是 token,而是注意力和时间。

这个时代最贵的东西,很多时候还真不是算力,而是人的持续注意力。
如果 GPT-5.5 能把一部分盯流程的精力替你拿走,那它的价值就不是单价表能完全解释的。

我现在越来越在意的,是另一件事

大模型真正让人不安的地方,不是它能不能写出更像人的话,而是它开始会接走一些本来必须由人亲自盯住的工作。

这件事很微妙。

因为它还远没到可以彻底放心的程度。稳定性、成本和边界都还在拉扯。
可你又能明显感觉到,那条线已经开始移动了。以前我们说 AI 是工具,现在好像越来越像在说,它是一个会犯错、但已经能分担工作的搭档。

我甚至觉得,接下来大家和 AI 的关系会越来越奇怪。
它不会一下子取代谁,但它会先接走一些步骤。先是草稿,接着是检查,再往后是修复、整理、调流程。你一开始会觉得只是省事,慢慢就会发现,自己已经把一部分工作习惯交给它了。

这才是让我觉得不一样的地方。

GPT-5.5 最让我在意的,也正是这一点。

不是更会说,而是更会做了。
不是更像一个“答案机器”,而是更像一个开始能分担工作的搭档。

说实话,我现在还不知道该为这件事高兴更多一点,还是警惕更多一点。

但它确实已经来了。

参考链接

  1. OpenAI 发布页: https://openai.com/index/introducing-gpt-5-5/
  2. OpenAI System Card: https://openai.com/index/gpt-5-5-system-card/
  3. NVIDIA 官方博客: https://blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/
  4. 参考文章 1: https://mp.weixin.qq.com/s/hYEtev-k7_79StH5zvK9WQ
  5. 参考文章 2: https://mp.weixin.qq.com/s/mgHr9BOJVv883fw96_nZlA
← 返回博客列表