博客
探索 AI 技术的前沿动态与深度洞察
很多 LLM 应用“能用”和“好用”之间,差的不是模型,而是工程指标:你到底在保证什么?是总耗时?首字时间(TTFT)?还是在高峰期的可用性?
这是一个很小的改动,小到官方只用了一句话描述:
如果你用 Claude Code 配合 Google Vertex AI,可能遇到过这个错误:
Opus 4.6 把最大输出 token 从 64K 提到了 128K。翻了一倍。
2025 年底,一个电商平台的 AI 客服被用户诱导说出了"我们的产品质量确实有问题,建议你去消协投诉"。截图传到社交媒体上,公关团队花了一周善后。
Claude Code 在 Opus 4.6 发布的同一天推出了 Agent Teams 功能。简单说:你可以在 Claude Code 里同时起多个 Agent,让它们并行工作。
上个月底对账,运营跑来问我:这个月大模型 API 花了 12000 美元,比上个月多了 40%,是哪个功能多花了钱?
做过 Agent 的人都碰过这个问题:跑着跑着,上下文满了。
Anthropic 说 Opus 4.6 是"近似直接替换"。大部分情况下确实是——换个 model ID 就能跑。但有几个改动,如果你不知道,上线就会炸。
2026 年 8 月 26 日,OpenAI 会关掉 Assistants API。
Opus 4.6 的能力很强,价格也不低——$5/$25 每百万输入/输出 token。如果你的应用调用量大,账单会很可观。
Hacker News 上有个帖子标题很直白:
Opus 4.6 第一次给 Opus 级别的模型开了 1M token 的上下文窗口。以前只有 Sonnet 有这个能力,现在旗舰模型也能塞进去一整个中型项目的代码了。
Opus 4.6 引入了一个不起眼但很实用的参数:effort。四个档位——low、medium、high、max——控制模型在回答时"用多大力气"。
大模型 API 账单里,输入 Token 的花费往往被忽视。很多人盯着输出价格选模型,却没意识到:当你的 System Prompt 有 2000 Token、RAG 上下文有 3000 Token 时,每次请求光"说前话"就要花一大笔钱。