GPT-5.5一发，为什么大家突然开始讨论AI打工了

GPT-5.5 这次出来，我最明显的感受不是“它又强了一点”，而是很多人突然不再把它当成一个聊天模型看了。

大家讨论它的时候，关键词都变了。

以前常见的问题是: 它会不会写代码？会不会做题？会不会推理？
这次大家问得更多的是: 它到底能不能把活接过去？能不能少盯一点？能不能在电脑上自己把一串事情做完？

这其实很说明问题。因为模型竞争的重点，可能真的开始从“谁更聪明”慢慢转向“谁更像一个能干活的系统”。

GPT-5.5 真正变的，不只是分数

OpenAI 这次给 GPT-5.5 的定位是 A new class of intelligence for real work。翻成大白话，就是它不想只做一个会答题、会聊天的模型，而是想把它往“真实工作执行”上推。

这个说法如果只是文案，其实没什么意思。可问题在于，它这次放出来的很多数据，确实都在往这个方向靠。

比如：

这些名字看着复杂，实际指向的是一件很朴素的事：
不是测你“会不会回答”，而是测你“能不能做完”。

Terminal-Bench 2.0 更像是在看命令行工作流能不能跑通。
OSWorld-Verified 更像是在看你能不能在真实电脑环境里切窗口、点按钮、推进流程。
GDPval 这种指标，则更像是在评估知识工作到底完成得怎么样。

所以 GPT-5.5 这次最不一样的地方，不是它把某道题从 90 分做到 95 分，而是它开始更像一个能把复杂任务继续往下推的模型。

原因很简单，首批测试反馈太具体了。

有开发者把高上下文、很混乱的工程任务扔给它，它能把分支关系捋顺；
有人直接把硬件设备接上，让它写代码、编译、部署；
还有科研人员拿它做数学可视化和研究辅助，发现它不是只会给建议，而是真能把事情推进到下一步。

这类反馈一多，讨论自然就从“AI 能不能帮我”变成了“AI 到底能替我接走多少流程”。

而且这种变化不是嘴上说说。
以前你和模型互动，很像在带一个特别聪明但还得你一直盯着的实习生。
现在 GPT-5.5 给人的感觉，是它开始能自己消化一部分复杂度了。

这也是为什么很多人开始用“AI 打工”“AI 同事”“AI 执行系统”这种词来形容它。

GPT-5.5 的 API 定价确实不便宜。

和上一代比，几乎就是翻倍。

所以很多人看到价格的第一反应不是“真强”，而是“真贵”。

不过 OpenAI 这次卖的逻辑也不是“我更便宜”，而是“我可能让你总任务成本更低”。因为它在执行同类任务时，可能用更少的 token、少返工、少重试，也少一点人工接管。

这个逻辑能不能成立，要看任务类型。

如果你只是做简单问答、普通文案、低复杂度生成，那 GPT-5.5 的性价比未必好看。
但如果你做的是长链路任务、复杂工程修改、研究辅助或者多步骤办公流程，那事情就不一样了。这个时候，省下来的不是几分钱 token，而可能是一次次返工和人工盯梢的时间。

我觉得 GPT-5.5 这轮热度，最后会沉淀成两个更大的变化。

第一，大模型竞争正在从“智商展示”转向“工作流接管”。

以前拼的是谁更会答。
现在拼的，越来越像是谁更能接流程、跨工具、少返工、把任务做完。

第二，Agent 这件事开始变得没那么虚了。

过去大家一提 Agent，很容易像在聊概念片。
现在 GPT-5.5 至少让人看到了一个更具体的方向：模型不一定马上替代整个人，但它已经开始能接走一部分原本必须人工推进的步骤。

这一步其实就够吓人了。

GPT-5.5 为什么一发出来，大家就开始讨论 AI 打工？

因为它让一个原本还偏概念化的问题，突然变得现实了。

以后我们在电脑前做的很多事，可能不会一下子全被模型接管，但很可能会先从一串流程里的几个节点开始被接走。先是查资料，接着是改文件，再往后是跑流程、补结果、做复核。

它还远远没到可以完全放手的程度。价格、稳定性、安全边界都还在拉扯。
但如果你问我，GPT-5.5 这次最值得关注的是什么，我会说:

不是它又多聪明了一点。
而是它让“AI 开始像同事”这件事，看起来更像真的了。