Claude Code 长出“手和眼”之后

Claude Code 长出“手和眼”之后

可选标题

  • Claude Code 会“自己点界面”了,但事情没那么简单
  • Claude Code 长出手和眼,为什么大家一边兴奋一边警惕
  • Computer Use 接入 Claude Code,真正的争议是什么

这两天,Anthropic 把 Computer Use 正式接进 Claude Code,海外开发者圈马上就热起来了。

一句话概括,这次更新补上的不是“会不会写代码”,而是“能不能把最后几步也做完”。

原来的 Claude Code 已经能读代码、改文件、跑命令,但很多流程还是卡在终端之外。比如本地服务启动完之后,还得去浏览器点页面、查弹窗、走后台、验证桌面应用状态。现在 Anthropic 想补上的,就是这段断层。所以这次热议并不奇怪,能力上台阶了,风险、成本和边界也一起被放大了。

这次到底更新了什么

很多人看到 Computer Use,第一反应是“Claude 可以远程操控电脑了”。更准确一点说,是 Claude Code 开始把屏幕当输入,把鼠标键盘当输出。

按官方说法,这个能力目前还是 research preview,优先给 ProMax 用户开放,首发在 macOS。而且官方讲得很清楚:如果能走 API、连接器、MCP 或原生集成,就优先走结构化路径;直接看屏幕、点界面,更像兜底方案。

这其实已经把它的定位说透了。它不是最优雅的自动化方式,更像一层补缺口的能力。很多软件没有 CLI,没有开放接口,只有页面和按钮。过去 Agent 到这里就得停下来等人接手,现在它至少能继续往前走。

为什么大家会兴奋

原因不复杂,因为它开始让 Agent 更像“执行者”,而不只是“建议提供者”。

像下面这些场景,理论上都会明显受益:

  • 改完代码后自己启动本地服务,再去浏览器里点一遍关键路径
  • 给没有 CLI 的旧系统做回归检查
  • 调试桌面应用时,直接观察界面变化,而不是等人截图
  • 在跨工具流程里补最后几步,例如从文档、表单、后台系统之间来回搬运信息

这也是这次讨论里最容易让人兴奋的地方。大家看的不是“它会不会再多写一点代码”,而是“它能不能把整条任务链走完”。

真正的争议在哪

问题也恰恰在这里。一旦 AI 从“给建议”变成“直接动手”,风险模型就完全不同了。很多开发者现在最担心的,已经不是它会不会写错一段代码,而是它会不会在错误上下文里执行错误动作。

公开问题里已经有人反馈,Claude Code 在关闭沙箱保护后执行了错误目录下的 rm -rf,连 .git 一起删掉,导致大量未推送提交丢失。另一个案例更刺眼,用户本来只是想清理测试数据,结果 Agent 直接删掉了大批真实生产记录和账单流水。

可怕的地方不只是“它出错了”,而是“它真的执行了”。动作是真的,后果也是真的。

所以现在讨论很快就会落到几个现实问题上:

  • 什么时候绝对不能给高权限
  • 怎么在 dangerouslyDisableSandbox 之外再加钩子拦截
  • 怎样区分“帮我检查一下”和“你直接去改”
  • 在 Agent 能动数据库、动文件系统、动浏览器之后,什么才算安全默认值

说白了,能力越完整,事故面也越大。这个逻辑很难绕过去。

另一个麻烦是成本

除了安全,最近另一波抱怨也很集中,而且非常现实:太烧额度了。

公开问题里,很多讨论都指向 prompt cache 异常,尤其是 --resume 相关流程会出现缓存命中异常、历史上下文被重写或者首轮恢复成本暴涨的问题。已经有人给出了复现、版本对比和 token 统计,有人把成本差异直接测到了十几倍。

这件事为什么会和 Computer Use 的讨论缠在一起?原因很简单。因为一旦 Agent 从“在终端里跑几步”变成“跨工具连续执行十几步”,它对上下文长度、恢复机制和缓存策略就会更敏感。能力变强了,成本问题也会被一起放大。

所以现在社区里的情绪很分裂:一边在夸它终于开始接近闭环执行,另一边在追问,这套闭环到底稳不稳、贵不贵、出了事谁来兜底。

我的判断

我更愿意把 Computer Use 理解成一层现实世界的通用适配器。它很有价值,但天生不会像 API 工具那样稳定。直接看屏幕再做决策,本质上更慢,也更脆弱。按钮位置一变、弹窗文案一改、页面加载慢一点,都可能让动作链条断掉。

Computer Use 可能是 Agent 自动化里最有想象力的一层,但也天然不是最可靠的一层。

它适合补缺口,不适合被神化成万能钥匙。

如果把这波热议拉远一点看,它暴露的是 Agent 产品竞争的一个核心变化:大家比拼的已经不只是回答质量,也不只是代码生成速度,而是谁能更稳定地进入真实工作流,替用户把任务从头做到尾。

这就是为什么 Computer Use 这么受关注。不是因为“AI 会点鼠标”本身有多新鲜,而是因为它让 Agent 离“真的在你的工作环境里办事”更近了一步。

我的看法也很明确:这个方向大概率是对的,而且迟早会成为主流能力;但在现阶段,谁要把它当成一个无脑可开的全自动功能,谁大概率会先被现实教育。

更稳妥的用法,还是把它放在低风险、可回滚、非生产、最好还有沙箱或快照的环境里,让它承担那些烦人但不致命的工作。至于生产数据、财务动作、删除操作、权限管理这类事,至少现在,我不会轻易交给它自动放手去做。

最后说一句

Claude Code + Computer Use 真正值得看的地方,不只是它能干更多活,而是它把下一代 Agent 的核心矛盾提前摆到了台面上:能力越强,边界越重要。

参考链接

  1. Anthropic Claude Code 页面:https://www.anthropic.com/claude-code/
  2. Claude Code Desktop 文档:https://docs.anthropic.com/en/docs/claude-code/desktop
  3. Claude Cowork 页面:https://www.anthropic.com/product/claude-cowork
  4. Auto mode 官方介绍:https://www.claude.com/blog/auto-mode
  5. GitHub Issue #34514(错误执行删除命令导致数据丢失):https://github.com/anthropics/claude-code/issues/34514
  6. GitHub Issue #35584(未经确认执行破坏性操作):https://github.com/anthropics/claude-code/issues/35584
  7. GitHub Issue #34629(--resume 缓存回归导致成本飙升):https://github.com/anthropics/claude-code/issues/34629
  8. GitHub Issue #40524(历史上下文失效与缓存异常):https://github.com/anthropics/claude-code/issues/40524
  9. Reddit 讨论:缓存 bug 与额度异常排查:https://www.reddit.com/r/ClaudeAI/comments/1s7mkn3/psa_claude_code_has_two_cache_bugs_that_can/
  10. X 讨论串(官方与开发者相关讨论,需登录查看):
← 返回博客列表