电脑会用之后，我们还需要“会用电脑”吗？聊聊 GPT-5.4 这次真正吓人的地方

3 月 5 日，OpenAI 在 GPT-5 系列里又推进了一步：一边把“更快”的 GPT-5.3 Instant 推出来，一边把“更深”的 GPT-5.4 Thinking 和更高配的 GPT-5.4 Pro 摆上台面。信息量很大，但我真正盯着看的不是“又变聪明了”——而是它开始更认真地做一件事：让模型去操作软件，把任务做完。

我想用一篇偏简书式的讨论，把这件事拆开讲：它到底改变了什么，我们会得到什么，又会失去什么。

1）GPT-5.4 到底更新了什么？先把“可核对”的说清楚

如果只看社交媒体热闹，很容易被“神话”带跑。这里先列几个我认为最值得写进正文、且有明确来源的点：

版本定位：OpenAI Academy 的资源页明确把 GPT-5.4 Thinking 定位为“更适合困难、真实的专业任务和更长工作流”，GPT-5.4 Pro 则是“最吃能力上限、最难的活”。这不是营销话术里常见的“更强”，而是很具体的“为长工作流而调”。（见参考链接 1）
API 定价（标准 GPT-5.4）：OpenAI 的定价页写得很清楚，GPT-5.4 输入 $2.50/百万 tokens、输出 $15/百万 tokens，还有 cached input 价。企业能不能用得起，先看这一刀。（见参考链接 2）

至于网上流传的各种基准分数（比如 OSWorld、MMMU-Pro、GDPval），我倾向于把它们当成“参考温度计”：能说明趋势，但不适合当成“最终结论”。如果你在做采购或技术选型，更应该关心“它在你的任务上能不能稳定交付”，而不是它在某个榜单上多赢了几个点。

2）“会用电脑”的含义：从“给建议”到“把事做完”

过去一年，大家已经习惯了这种工作方式：

你问模型怎么办
它给你一套步骤
你自己去点 UI、填表、复制粘贴、报错、再回来问

这套流程的问题不在“模型不聪明”，而在“人是瓶颈”：你要在不同软件之间搬运上下文，你要为每个小错误来回跑三趟。

GPT-5.4 Thinking 在 OpenAI Academy 的描述里反复出现几个词：multi-step、tool-heavy、verify、workflow。翻译成人话就是：它更像一个愿意把整个流程串起来的人——先把信息凑齐、再动工具、再校验、最后交付一个能用的产物。（见参考链接 1）

这里面最改变习惯的，不是“操作鼠标键盘”这个动作本身，而是它把“完成任务”当成目标：
你不再需要把自己当成流水线工人，一步步执行模型给的指令；你更像一个项目负责人，给出目标、约束和验收标准。

3）真正的冲击：技能的重心在迁移

我身边很多朋友（包括我自己）有一种隐秘的自豪：我很会用各种软件——快捷键、插件、脚本、自动化。

但如果“会用电脑”的能力开始被模型吃掉，那人类的价值会往哪里挪？

我觉得会发生三种迁移：

A. 从“熟练操作”迁移到“定义问题”

当模型能把 Excel、网页、工单系统跑通，你熟练点按钮的优势会变薄；但你能不能把问题定义清楚，会变得更关键：

你要的结果是什么？
约束是什么（时效、合规、语气、预算、风险）？
什么算“做对了”，什么算“做错了”？

这也是为什么 GPT-5.4 Thinking 这类产品，越来越像是在卖“工作流完成度”，而不是卖“回答质量”。

B. 从“写代码”迁移到“设验收标准”

以前我们写自动化脚本，会做很多“输入校验、异常处理、重试、日志”。
当模型可以直接操作 UI，你还是要做这些事——只是形式变了：你需要更清楚地告诉它“什么叫成功”“怎么验证成功”“哪里最容易失败”。否则它会把事情做得像人类新人：很努力，但经常在最后一步翻车。

C. 从“单点效率”迁移到“系统效率”

模型操作电脑最容易被夸大成“替代某个岗位”。但更现实的变化是：一个团队里每个人的工作方式都变了。

过去很多协作成本来自于：

我给你一个链接，你打不开
我让你跑个报表，你没有权限
我让你按步骤做，你漏了第三步

当“执行”被抽象掉，协作瓶颈会更集中在权限、流程、责任划分这些更硬的地方。

4）它也不是万能：三个我觉得会很快遇到的“现实坑”

写讨论文，我更愿意把担心摆出来，不然就成了发布会复述。

① 权限与审计：谁为它的点击负责？

模型能点按钮是一回事；企业能不能让它点，是另一回事。
一旦它能在系统里“执行”，就一定要问：审计日志怎么记？审批流程怎么走？越权怎么防？出错怎么回滚？

这些问题不解决，“电脑会用”就只能停留在 demo。

② 可靠性：它会不会“自信地做错事”？

把任务交给模型执行，最怕的不是它不会，而是它“以为自己会”。
尤其是 UI 变化、网络波动、弹窗干扰这种脏活，最容易把智能体拖进坑里。

所以我一直觉得：真正好的智能体，不是一次性完成，而是能把失败检测出来，能把不确定性暴露给你。

③ 成本：贵的不只是 tokens

OpenAI 定价页的 token 单价很清晰（见参考链接 2），但真实成本还包括：

工具调用成本（比如检索、容器等）
失败重试带来的消耗
人类审核与回滚的成本

你会发现，“自动化”不等于“便宜”。它更像“把成本从人力搬到算力+治理”。

5）我更关心的一个问题：我们会不会被迫学会“像管理人一样管理模型”？

以前你管理一个新人，会做三件事：

给他清晰的目标
给他可执行的 SOP
给他验收标准和复盘机制

现在很多人对 AI 的用法还停留在第 1 步：我告诉你我想要什么。
但 GPT-5.4 这种趋势下，后两步会越来越重要——你要把工作拆成可以验证的环节，你要设计“失败时怎么停”“停了以后怎么处理”。

这听起来有点累，但也很真实：当工具开始能执行，人类的工作反而更像管理工作。

结尾：别急着神化，也别急着否定

GPT-5.4 这波更新当然会带来新一轮“谁更强”的争论，但我更愿意把它当成一个信号：AI 的主战场正在从“内容生成”转向“任务交付”。

你可以不喜欢 OpenAI 的节奏，也可以对它的路线保持怀疑。但如果你的工作里存在大量“跨系统、跨工具、反复执行”的流程，那么这类能力迟早会渗透进来——区别只是你是被动适应，还是提前把自己的工作方法升级成“可验证的工作流”。

参考链接（可核对）

OpenAI Academy：GPT-5.3 Instant / GPT-5.4 Thinking / GPT-5.4 Pro（2026-03-05）
https://academy.openai.com/en/home/resources/latest-model
OpenAI API Pricing：GPT-5.4 价格（Input $2.50 / Output $15.00 / cached input $0.25）
https://openai.com/api/pricing/
Neowin 报道（含对 OSWorld、上下文等信息的整理）：
https://www.neowin.net/news/openai-announces-gpt54-its-most-powerful-model-that-excels-at-professional-tasks/
Fortune 报道（企业与 agentic 方向的背景）：
https://fortune.com/2026/03/05/openai-new-model-gpt5-4-enterprise-agentic-anthropic/