AI 不只是帮你写代码了,现在它能自己跑测试、自己改 bug
最近两天 X 和 GitHub 又炸了,这次的焦点是 Claude Code + AWS Bedrock。
以前大家讨论 AI 写代码,画面通常是这样的:你写一半,AI 帮你补另一半。但这次的讨论完全不一样了。现在的画面是:你把任务丢给 AI,它自己拆步骤、自己写代码、自己跑测试、自己看报错、自己改,改完了还能帮你提交 PR。
说白了,AI 在编程这件事上,正在从"助手"变成"干活的"。
到底发生了什么
三件事合在一起,让这波讨论热度直线上升。
第一件事,3 月 17 号 AWS 开放了 AgentCore Runtime 的 shell 命令执行。以前 AI Agent 能想、能写,但不能自己动手跑命令。现在可以了。跑测试、装依赖、执行 git 操作,Agent 自己就能干,不需要人去当中间人。
第二件事,Bedrock 的 Prompt 缓存正式上线了。做 AI 编程最贵的不是模型本身,而是每次都要重新传一大坨项目上下文。现在如果你在同一个项目里连续工作,重复的上下文只收十分之一的价格。以 Claude Opus 4.6 为例,标准输入 $5/百万 token,缓存读取只要 $0.50。
第三件事,Claude Code 已经能直接把 AWS Bedrock 作为后端。你在 VS Code 里用 Claude Code,数据不出 AWS 环境,权限走 IAM,费用走统一账单。
这三件事加起来意味着什么?意味着 AI 编程这件事,已经不是"看 demo 兴奋一下"了,而是有了一套能真正在企业里跑起来的基础设施。
跟 GPT-5.4 比怎么样
这是大家最爱问的问题。
实话说,Claude 4.6 和 GPT-5.4 在模型能力上已经非常接近了。你让它们写同一段代码,结果可能互有胜负。
真正拉开差距的,不是模型本身,而是谁背后的基础设施更完整。
AWS 这边给 Claude 铺的路很实:AgentCore 提供 Agent 运行时和 shell 执行、Bedrock 提供统一权限和监控、Prompt 缓存降低成本。这套东西合在一起,让 Claude 在"企业里真用起来"这件事上走得更快。
Azure 那边也有 GPT-5.4 的企业方案,但在"智能体自主编程"这个方向上,AWS + Claude 这次确实更有看头。
国内能用吗
直说吧,门槛还在。
AWS 海外账号、模型权限申请、跨境网络延迟,这些老问题还没解决。AgentCore 的 shell 命令执行支持 14 个区域,亚太有东京和新加坡,但没有中国区。
所以对大多数国内开发者来说,想直接用还差点火候。但这波讨论里有很多值得学的东西:
比如怎么设计 Agent 的上下文复用(让缓存命中率更高)。
比如怎么在 Agent 工作流里加入"跑命令→看结果→再决策"的循环。
比如怎么把输入成本和输出成本拆开算,找到成本和体验的平衡点。
这些思路是通用的,不管你用的是 AWS 还是其他平台。
为什么这波比以前的讨论更值得关注
因为这次讨论的内容,不是"某个模型又强了 10%",而是"AI 编程需要的整套基础设施,终于开始成型了"。
Agent 能自己执行命令了。
连续工作时的 token 成本能压下来了。
权限、监控、计费都能走企业现有体系了。
这三件事同时发生,说明 AI 编程这个方向,正在从"概念验证"阶段跨入"生产环境"阶段。
GPT-5.4 和 Claude 4.6 都很强。但真正决定这个方向能走多远的,可能不是谁的下一版模型分数更高,而是谁能更快把模型变成一套可以长期运行的工作系统。
参考链接:
- https://aws.amazon.com/about-aws/whats-new/2026/03/bedrock-agentcore-runtime-shell-command/
- https://aws.amazon.com/blogs/machine-learning/supercharge-your-development-with-claude-code-and-amazon-bedrock-prompt-caching
- https://code.claude.com/docs/en/amazon-bedrock
- https://github.com/aws-samples/anthropic-on-aws