电脑会用之后,我们还需要“会用电脑”吗?聊聊 GPT-5.4 这次真正吓人的地方

电脑会用之后,我们还需要“会用电脑”吗?聊聊 GPT-5.4 这次真正吓人的地方

3 月 5 日,OpenAI 在 GPT-5 系列里又推进了一步:一边把“更快”的 GPT-5.3 Instant 推出来,一边把“更深”的 GPT-5.4 Thinking 和更高配的 GPT-5.4 Pro 摆上台面。信息量很大,但我真正盯着看的不是“又变聪明了”——而是它开始更认真地做一件事:让模型去操作软件,把任务做完

我想用一篇偏简书式的讨论,把这件事拆开讲:它到底改变了什么,我们会得到什么,又会失去什么。


1)GPT-5.4 到底更新了什么?先把“可核对”的说清楚

如果只看社交媒体热闹,很容易被“神话”带跑。这里先列几个我认为最值得写进正文、且有明确来源的点:

  • 版本定位:OpenAI Academy 的资源页明确把 GPT-5.4 Thinking 定位为“更适合困难、真实的专业任务和更长工作流”,GPT-5.4 Pro 则是“最吃能力上限、最难的活”。这不是营销话术里常见的“更强”,而是很具体的“为长工作流而调”。(见参考链接 1)
  • API 定价(标准 GPT-5.4):OpenAI 的定价页写得很清楚,GPT-5.4 输入 $2.50/百万 tokens、输出 $15/百万 tokens,还有 cached input 价。企业能不能用得起,先看这一刀。(见参考链接 2)

至于网上流传的各种基准分数(比如 OSWorld、MMMU-Pro、GDPval),我倾向于把它们当成“参考温度计”:能说明趋势,但不适合当成“最终结论”。如果你在做采购或技术选型,更应该关心“它在你的任务上能不能稳定交付”,而不是它在某个榜单上多赢了几个点。


2)“会用电脑”的含义:从“给建议”到“把事做完”

过去一年,大家已经习惯了这种工作方式:

  1. 你问模型怎么办
  2. 它给你一套步骤
  3. 你自己去点 UI、填表、复制粘贴、报错、再回来问

这套流程的问题不在“模型不聪明”,而在“人是瓶颈”:你要在不同软件之间搬运上下文,你要为每个小错误来回跑三趟。

GPT-5.4 Thinking 在 OpenAI Academy 的描述里反复出现几个词:multi-step、tool-heavy、verify、workflow。翻译成人话就是:它更像一个愿意把整个流程串起来的人——先把信息凑齐、再动工具、再校验、最后交付一个能用的产物。(见参考链接 1)

这里面最改变习惯的,不是“操作鼠标键盘”这个动作本身,而是它把“完成任务”当成目标:
你不再需要把自己当成流水线工人,一步步执行模型给的指令;你更像一个项目负责人,给出目标、约束和验收标准。


3)真正的冲击:技能的重心在迁移

我身边很多朋友(包括我自己)有一种隐秘的自豪:我很会用各种软件——快捷键、插件、脚本、自动化。

但如果“会用电脑”的能力开始被模型吃掉,那人类的价值会往哪里挪?

我觉得会发生三种迁移:

A. 从“熟练操作”迁移到“定义问题”

当模型能把 Excel、网页、工单系统跑通,你熟练点按钮的优势会变薄;但你能不能把问题定义清楚,会变得更关键:

  • 你要的结果是什么?
  • 约束是什么(时效、合规、语气、预算、风险)?
  • 什么算“做对了”,什么算“做错了”?

这也是为什么 GPT-5.4 Thinking 这类产品,越来越像是在卖“工作流完成度”,而不是卖“回答质量”。

B. 从“写代码”迁移到“设验收标准”

以前我们写自动化脚本,会做很多“输入校验、异常处理、重试、日志”。
当模型可以直接操作 UI,你还是要做这些事——只是形式变了:你需要更清楚地告诉它“什么叫成功”“怎么验证成功”“哪里最容易失败”。否则它会把事情做得像人类新人:很努力,但经常在最后一步翻车。

C. 从“单点效率”迁移到“系统效率”

模型操作电脑最容易被夸大成“替代某个岗位”。但更现实的变化是:一个团队里每个人的工作方式都变了。

过去很多协作成本来自于:

  • 我给你一个链接,你打不开
  • 我让你跑个报表,你没有权限
  • 我让你按步骤做,你漏了第三步

当“执行”被抽象掉,协作瓶颈会更集中在权限、流程、责任划分这些更硬的地方。


4)它也不是万能:三个我觉得会很快遇到的“现实坑”

写讨论文,我更愿意把担心摆出来,不然就成了发布会复述。

① 权限与审计:谁为它的点击负责?

模型能点按钮是一回事;企业能不能让它点,是另一回事。
一旦它能在系统里“执行”,就一定要问:审计日志怎么记?审批流程怎么走?越权怎么防?出错怎么回滚?

这些问题不解决,“电脑会用”就只能停留在 demo。

② 可靠性:它会不会“自信地做错事”?

把任务交给模型执行,最怕的不是它不会,而是它“以为自己会”。
尤其是 UI 变化、网络波动、弹窗干扰这种脏活,最容易把智能体拖进坑里。

所以我一直觉得:真正好的智能体,不是一次性完成,而是能把失败检测出来,能把不确定性暴露给你。

③ 成本:贵的不只是 tokens

OpenAI 定价页的 token 单价很清晰(见参考链接 2),但真实成本还包括:

  • 工具调用成本(比如检索、容器等)
  • 失败重试带来的消耗
  • 人类审核与回滚的成本

你会发现,“自动化”不等于“便宜”。它更像“把成本从人力搬到算力+治理”。


5)我更关心的一个问题:我们会不会被迫学会“像管理人一样管理模型”?

以前你管理一个新人,会做三件事:

  1. 给他清晰的目标
  2. 给他可执行的 SOP
  3. 给他验收标准和复盘机制

现在很多人对 AI 的用法还停留在第 1 步:我告诉你我想要什么。
但 GPT-5.4 这种趋势下,后两步会越来越重要——你要把工作拆成可以验证的环节,你要设计“失败时怎么停”“停了以后怎么处理”。

这听起来有点累,但也很真实:当工具开始能执行,人类的工作反而更像管理工作


结尾:别急着神化,也别急着否定

GPT-5.4 这波更新当然会带来新一轮“谁更强”的争论,但我更愿意把它当成一个信号:AI 的主战场正在从“内容生成”转向“任务交付”。

你可以不喜欢 OpenAI 的节奏,也可以对它的路线保持怀疑。但如果你的工作里存在大量“跨系统、跨工具、反复执行”的流程,那么这类能力迟早会渗透进来——区别只是你是被动适应,还是提前把自己的工作方法升级成“可验证的工作流”。


参考链接(可核对)

  1. OpenAI Academy:GPT-5.3 Instant / GPT-5.4 Thinking / GPT-5.4 Pro(2026-03-05)
    https://academy.openai.com/en/home/resources/latest-model
  2. OpenAI API Pricing:GPT-5.4 价格(Input $2.50 / Output $15.00 / cached input $0.25)
    https://openai.com/api/pricing/
  3. Neowin 报道(含对 OSWorld、上下文等信息的整理):
    https://www.neowin.net/news/openai-announces-gpt54-its-most-powerful-model-that-excels-at-professional-tasks/
  4. Fortune 报道(企业与 agentic 方向的背景):
    https://fortune.com/2026/03/05/openai-new-model-gpt5-4-enterprise-agentic-anthropic/
← 返回博客列表