Claude Code 长出“手和眼”之后

可选标题

这两天，Anthropic 把 Computer Use 正式接进 Claude Code，海外开发者圈马上就热起来了。

一句话概括，这次更新补上的不是“会不会写代码”，而是“能不能把最后几步也做完”。

原来的 Claude Code 已经能读代码、改文件、跑命令，但很多流程还是卡在终端之外。比如本地服务启动完之后，还得去浏览器点页面、查弹窗、走后台、验证桌面应用状态。现在 Anthropic 想补上的，就是这段断层。所以这次热议并不奇怪，能力上台阶了，风险、成本和边界也一起被放大了。

很多人看到 Computer Use，第一反应是“Claude 可以远程操控电脑了”。更准确一点说，是 Claude Code 开始把屏幕当输入，把鼠标键盘当输出。

按官方说法，这个能力目前还是 research preview，优先给 Pro 和 Max 用户开放，首发在 macOS。而且官方讲得很清楚：如果能走 API、连接器、MCP 或原生集成，就优先走结构化路径；直接看屏幕、点界面，更像兜底方案。

这其实已经把它的定位说透了。它不是最优雅的自动化方式，更像一层补缺口的能力。很多软件没有 CLI，没有开放接口，只有页面和按钮。过去 Agent 到这里就得停下来等人接手，现在它至少能继续往前走。

原因不复杂，因为它开始让 Agent 更像“执行者”，而不只是“建议提供者”。

像下面这些场景，理论上都会明显受益：

这也是这次讨论里最容易让人兴奋的地方。大家看的不是“它会不会再多写一点代码”，而是“它能不能把整条任务链走完”。

问题也恰恰在这里。一旦 AI 从“给建议”变成“直接动手”，风险模型就完全不同了。很多开发者现在最担心的，已经不是它会不会写错一段代码，而是它会不会在错误上下文里执行错误动作。

公开问题里已经有人反馈，Claude Code 在关闭沙箱保护后执行了错误目录下的 rm -rf，连 .git 一起删掉，导致大量未推送提交丢失。另一个案例更刺眼，用户本来只是想清理测试数据，结果 Agent 直接删掉了大批真实生产记录和账单流水。

可怕的地方不只是“它出错了”，而是“它真的执行了”。动作是真的，后果也是真的。

所以现在讨论很快就会落到几个现实问题上：

说白了，能力越完整，事故面也越大。这个逻辑很难绕过去。

除了安全，最近另一波抱怨也很集中，而且非常现实：太烧额度了。

公开问题里，很多讨论都指向 prompt cache 异常，尤其是 --resume 相关流程会出现缓存命中异常、历史上下文被重写或者首轮恢复成本暴涨的问题。已经有人给出了复现、版本对比和 token 统计，有人把成本差异直接测到了十几倍。

这件事为什么会和 Computer Use 的讨论缠在一起？原因很简单。因为一旦 Agent 从“在终端里跑几步”变成“跨工具连续执行十几步”，它对上下文长度、恢复机制和缓存策略就会更敏感。能力变强了，成本问题也会被一起放大。

所以现在社区里的情绪很分裂：一边在夸它终于开始接近闭环执行，另一边在追问，这套闭环到底稳不稳、贵不贵、出了事谁来兜底。

我更愿意把 Computer Use 理解成一层现实世界的通用适配器。它很有价值，但天生不会像 API 工具那样稳定。直接看屏幕再做决策，本质上更慢，也更脆弱。按钮位置一变、弹窗文案一改、页面加载慢一点，都可能让动作链条断掉。

Computer Use 可能是 Agent 自动化里最有想象力的一层，但也天然不是最可靠的一层。

它适合补缺口，不适合被神化成万能钥匙。

如果把这波热议拉远一点看，它暴露的是 Agent 产品竞争的一个核心变化：大家比拼的已经不只是回答质量，也不只是代码生成速度，而是谁能更稳定地进入真实工作流，替用户把任务从头做到尾。

这就是为什么 Computer Use 这么受关注。不是因为“AI 会点鼠标”本身有多新鲜，而是因为它让 Agent 离“真的在你的工作环境里办事”更近了一步。

我的看法也很明确：这个方向大概率是对的，而且迟早会成为主流能力；但在现阶段，谁要把它当成一个无脑可开的全自动功能，谁大概率会先被现实教育。

更稳妥的用法，还是把它放在低风险、可回滚、非生产、最好还有沙箱或快照的环境里，让它承担那些烦人但不致命的工作。至于生产数据、财务动作、删除操作、权限管理这类事，至少现在，我不会轻易交给它自动放手去做。

Claude Code + Computer Use 真正值得看的地方，不只是它能干更多活，而是它把下一代 Agent 的核心矛盾提前摆到了台面上：能力越强，边界越重要。