Claude 100万 Token 正式开放：降价了，但我不建议你无脑用

Claude 终于把 100 万 token 的口子彻底放开了。

链接在这：https://x.com/claudeai/status/2032509548297343196

乍一看这是好事：去掉了那个烦人的 anthropic-beta header，价格也统一了。但如果你去 Reddit、Hacker News 和 GitHub 逛一圈，会发现大家的反应比想象中复杂得多——有人欢呼"终于能用了"，也有人吐槽这简直是"抢钱"。

先说最实在的：终于不搞"阶梯收费"了

这次 GA（正式发布）最让开发者松一口气的，其实是定价。

在 Beta 阶段，Anthropic 的吃相有点难看——搞了个"阶梯定价"，只要请求超过 20 万 token，单价直接翻倍。这被很多开发者吐槽为"惩罚性定价"：我想传个完整的代码库进去，结果你因为我传得多就要加倍收钱？

好在正式版把这个设定砍了。现在不管你是用 1 万还是 95 万 token，单价都一样（Opus 4.6 是 $5/$25，Sonnet 4.6 是 $3/$15）。Hacker News 上有人评价得很到位："这功能现在才算真正能用，之前那就是个烧钱的玩具。"

大家在吵什么？

虽然价格良心了点，但质疑声一点没少。

1. "一夜回到解放前" Reddit 上有老哥直言，100 万 token 听着爽，用起来是真肉疼。特别是那些按 token 计费的工具，如果没有很好的缓存机制，手一抖几十刀就没了。有个用户的吐槽很真实："为了测试 1M 上下文，我两以前存的 50 刀额度，两天就烧光了。"

2. "给得越多，它越懵" 这是技术圈讨论最热烈的话题：Context Decay（上下文衰减）。 Hacker News 上有大佬指出，窗口变大不代表脑子变好。你把几本书扔进去，Claude 真的能精准找到角落里的那句话吗？很多人的实测感受是：信息多了反而坏事。过多的无关噪音会干扰模型的判断，导致"幻觉"增加。与其盲目追求 1M 上下文，不如花点心思把 Prompt 写好，或者老老实实做 RAG。

3. "是不是偷工减料了？" 还有一派硬核玩家在怀疑，Claude 到底是不是用了"真·全注意力"（Full Attention）。因为按理说，处理这么长的文本推理速度会变慢，但现在的速度并没有显著下降。于是有人猜测是不是用了某种稀疏注意力或者近似计算的"魔法"。当然，官方没明说，这也就是个悬案。

神仙打架：Claude 和 Gemini 怎么选？

既然提到了长文本，就绕不开隔壁 Google 的 Gemini 3.1 Pro（甚至 2026 年的 Gemini 3.1）。

简单粗暴点对比：

谁更能装？ Gemini 依然是大哥，动不动就 200 万起步。
谁更全能？ Gemini 对原生视频/音频的理解力更强，毕竟 Google 有多模态的底子。
谁更精准？ 这是 Claude 的地盘。在 GitHub 和 Twitter 的各种对比评测里，Claude 在"精度"上几乎完胜。特别是在代码审计、法律文书分析这种容错率极低的场景下，Claude 依然是首选。Gemini 适合"读完 100 本书写个读后感"，而 Claude 适合"在这 100 本书里找出那个自相矛盾的逻辑漏洞"。

这对写代码有啥用？

回到我们最关心的：写代码。

Claude Code 的"续航"提升有坑。

理论上，GA 后的长上下文应该让 Claude Code 的"自动压缩"（auto-compaction）大幅减少。但 GitHub 上的 issue 区却炸了：很多人发现，现在的版本有个 Bug——它会在上下文用到 15%（大约 150k token） 时就触发自动压缩。

这简直是"买了法拉利还在限速 30 开"。虽然官方说是为了保持响应速度，但社区目前普遍的解决办法是手动设置环境变量 CLAUDE_CODE_AUTO_COMPACT_WINDOW，强制把这个阈值拉高。所以，如果你觉得即便有了 1M 上下文，AI 还是很健忘，记得去检查一下这个设置。

最后扯两句

Claude 100 万 token 的 GA，意味着长文本从"实验特性"变成了"基建"。

好消息：不用加 header 了，价格统一了，不用担心被双倍收费了。
坏消息：它不是魔法。你依然需要担心钱包，依然需要担心模型被海量信息"冲昏头脑"。

对于普通开发者，我的建议是：别把什么破烂都往里扔。 把它当成一个"可以处理大文件"的能力储备，而不是每次请求的默认选项。毕竟，精准的 Prompt 永远比盲目的海量上下文更值钱——也更省钱。