AI 不只是帮你写代码了，现在它能自己跑测试、自己改 bug

最近两天 X 和 GitHub 又炸了，这次的焦点是 Claude Code + AWS Bedrock。

以前大家讨论 AI 写代码，画面通常是这样的：你写一半，AI 帮你补另一半。但这次的讨论完全不一样了。现在的画面是：你把任务丢给 AI，它自己拆步骤、自己写代码、自己跑测试、自己看报错、自己改，改完了还能帮你提交 PR。

说白了，AI 在编程这件事上，正在从"助手"变成"干活的"。

到底发生了什么

三件事合在一起，让这波讨论热度直线上升。

第一件事，3 月 17 号 AWS 开放了 AgentCore Runtime 的 shell 命令执行。以前 AI Agent 能想、能写，但不能自己动手跑命令。现在可以了。跑测试、装依赖、执行 git 操作，Agent 自己就能干，不需要人去当中间人。

第二件事，Bedrock 的 Prompt 缓存正式上线了。做 AI 编程最贵的不是模型本身，而是每次都要重新传一大坨项目上下文。现在如果你在同一个项目里连续工作，重复的上下文只收十分之一的价格。以 Claude Opus 4.6 为例，标准输入 $5/百万 token，缓存读取只要 $0.50。

第三件事，Claude Code 已经能直接把 AWS Bedrock 作为后端。你在 VS Code 里用 Claude Code，数据不出 AWS 环境，权限走 IAM，费用走统一账单。

这三件事加起来意味着什么？意味着 AI 编程这件事，已经不是"看 demo 兴奋一下"了，而是有了一套能真正在企业里跑起来的基础设施。

跟 GPT-5.4 比怎么样

这是大家最爱问的问题。

实话说，Claude 4.6 和 GPT-5.4 在模型能力上已经非常接近了。你让它们写同一段代码，结果可能互有胜负。

真正拉开差距的，不是模型本身，而是谁背后的基础设施更完整。

AWS 这边给 Claude 铺的路很实：AgentCore 提供 Agent 运行时和 shell 执行、Bedrock 提供统一权限和监控、Prompt 缓存降低成本。这套东西合在一起，让 Claude 在"企业里真用起来"这件事上走得更快。

Azure 那边也有 GPT-5.4 的企业方案，但在"智能体自主编程"这个方向上，AWS + Claude 这次确实更有看头。

国内能用吗

直说吧，门槛还在。

AWS 海外账号、模型权限申请、跨境网络延迟，这些老问题还没解决。AgentCore 的 shell 命令执行支持 14 个区域，亚太有东京和新加坡，但没有中国区。

所以对大多数国内开发者来说，想直接用还差点火候。但这波讨论里有很多值得学的东西：

比如怎么设计 Agent 的上下文复用（让缓存命中率更高）。
比如怎么在 Agent 工作流里加入"跑命令→看结果→再决策"的循环。
比如怎么把输入成本和输出成本拆开算，找到成本和体验的平衡点。

这些思路是通用的，不管你用的是 AWS 还是其他平台。

为什么这波比以前的讨论更值得关注

因为这次讨论的内容，不是"某个模型又强了 10%"，而是"AI 编程需要的整套基础设施，终于开始成型了"。

Agent 能自己执行命令了。
连续工作时的 token 成本能压下来了。
权限、监控、计费都能走企业现有体系了。

这三件事同时发生，说明 AI 编程这个方向，正在从"概念验证"阶段跨入"生产环境"阶段。

GPT-5.4 和 Claude 4.6 都很强。但真正决定这个方向能走多远的，可能不是谁的下一版模型分数更高，而是谁能更快把模型变成一套可以长期运行的工作系统。

参考链接：