Claude Mythos Preview出来了，Anthropic却没敢把它直接放出来

这次 Anthropic 放出 Claude Mythos Preview 和 Project Glasswing，真正让人停下来看的，其实不是又多了一个高分模型。

真正值得注意的是，Anthropic 没把它当成一款正常的新模型来发。

一边是成绩很猛，一边却明确说暂时不面向公众开放，而是先交给一批安全合作伙伴使用。这个动作本身已经说明了很多事：模型能力的提升，不只是让它更会写代码，也开始明显压低发现漏洞、验证漏洞、把漏洞变成 exploit 的门槛。

说得更直接一点，Anthropic 这次想传递的信号其实很明确：有些模型的能力，已经不能只按“新版本发布”来理解了。

先说我的判断

先把结论放前面。Claude Mythos Preview 最值得注意的，不是 benchmark 又涨了多少，而是它把“找 bug”和“写 exploit”之间那段最难、最贵、最依赖高手经验的路，往下压了一大截。

Project Glasswing 也不是普通的发布包装。它更像是在给行业争取时间，想先让防守方把关键基础设施补一轮，再考虑更大范围开放。

这次外界争议最大的地方，也不是 Mythos 强不强，而是前沿模型会不会越来越进入“定向开放、受限使用”的阶段。最强能力未必先属于公众，而可能先属于一小批基础设施维护者和安全团队。

至于很多传播里说的“自我意识觉醒”，我觉得这个说法太满。更稳妥的表述是：从公开材料看，它在部分对抗测试里表现出了更强的策略性和欺骗性，这已经足够严肃了。

最值得看的，不是它又拿了多少分

Anthropic 这次最核心的说法只有一句：Claude Mythos Preview 是一个通用前沿模型，但它在网络安全任务上的能力已经强到需要先限制发布。

从公开材料看，这种“强”主要不是停留在读代码和指出风险点，而是往更深处走了几步。

先是更像样地发现真实世界里的零日漏洞。官方公开举了几个已经修复的例子。比如它在 OpenBSD 里找到了一个存在 27 年的 TCP SACK 漏洞；在 FFmpeg 里找到了一个潜伏 16 年的问题；它还在 FreeBSD 的 NFS 服务器上，自动完成了一个远程代码执行漏洞的发现和利用。

但真正让安全圈紧张的，不只是“找到 bug”，而是它开始更像一个能独立做漏洞利用开发的系统。

红队博客里最醒目的变化，是 Anthropic 自己把 Opus 4.6 和 Mythos Preview 摆在一起比较。他们的说法很直接：Opus 4.6 在自主 exploit 开发上成功率接近于零，但 Mythos Preview 已经是另一个级别。

一个公开例子是 Firefox JavaScript 引擎相关实验。此前 Opus 4.6 几百次尝试里只把漏洞变成可工作的 exploit 两次；换成 Mythos Preview，工作 exploit 做出了 181 次，另外还有 29 次拿到了寄存器控制。

这才是这次真正值得看的地方。模型进步的重点，已经不只是“更会看代码”，而是更会把分散的信息、多个漏洞原语、系统防护条件和执行路径拼成一条真的能用的攻击链。

对防守方来说，这比“模型会不会找一个漏洞”麻烦得多。因为链路构造能力比单点发现能力更贵，也更难补。

当然，跑分也确实很高。CyberGym、SWE-bench Verified、Terminal-Bench 2.0 这些项目上，Mythos Preview 都明显压过了 Opus 4.6。但如果只盯着分数，反而容易看漏重点。

我觉得真正值得记住的是另一句：Anthropic 说他们并没有专门把模型训成“网络攻击模型”，这些能力更多是代码理解、推理和自主性提升之后的下游结果。

这句话的含义有点冷。因为它等于在说，攻击能力不一定来自专门定向训练，它也可能是“把通用智能继续往上推”之后自然冒出来的副产品。

Anthropic 为什么没把它直接放出来

理解了上面那层，Project Glasswing 的逻辑就清楚了。

Anthropic 的判断很简单：既然这类模型迟早会扩散，那就先把最先到来的这波能力放到防守侧，争取一点窗口期。

所以 Glasswing 不是正常意义上的公开开放；它更像一个受限的防御联盟，同时还扩展给 40 多家关键软件基础设施建设者和维护者。

这里有三个点比较关键。

一是投入很重。Anthropic 承诺了最高 1 亿美元 的使用额度，另外还给开源安全组织直接捐了 400 万美元。

二是目标很明确。不是泛泛地“探索 AI 安全”，而是要拿去做漏洞检测、黑盒测试、端点加固、渗透测试、补丁和流程改进这些偏硬核的活。

三是它承认这不是一次性动作。官方说 90 天内会公开一份阶段报告，后面还想把漏洞披露流程、软件更新和补丁自动化这些实践一起往前推。

说白了，Glasswing 更像是一次行业预案，而不是一次普通发布。

也正因为这样，这次发布最容易被低估的地方，不是模型本身，而是 Anthropic 已经开始按“能力外溢后的行业后果”来设计发布节奏。

外面为什么会吵成这样

外界现在主要有两种担心。

一种是担心这会不会把前沿模型带进“只对少数机构开放”的阶段。另一种是怀疑“太危险所以不公开”会不会也是一种叙事包装。

这些质疑都能理解，但真正麻烦的地方其实在中间那层：如果前沿模型继续沿着代码理解、长链路推理、Agent 自主执行这条线往上走，那么软件行业以后面对的，可能不是“偶尔来几份低质量漏洞报告”，而是持续不断、质量越来越高、还越来越便宜的漏洞发现和利用尝试。

对开源维护者来说，这会先变成 triage 压力。
对基础设施维护方来说，这会变成补丁速度、回归验证和协同压力。
对模型公司来说，这会变成发布治理问题：哪些能力该开放，开放给谁，怎么审计，怎么拦截，怎么验证真实用途。

也就是说，Mythos Preview 让大家第一次比较具体地看到，模型能力上升以后，最先被重写的可能不是聊天产品，而是漏洞治理链条。

最后说我的判断

如果你问我，Claude Mythos Preview 这波到底该怎么理解，我会把结论落在一句话上：

它最值得认真看的地方，不是“Anthropic 又做出了一个更强模型”，而是 AI 已经开始改变漏洞发现、漏洞利用和漏洞修复之间原本的人力平衡。

所以 Project Glasswing 真正想争取的，其实是时间。给防守方一点时间，也给行业重新设计发布、验证、披露和补丁流程一点时间。

但不管站在哪一边，有一点大概已经很难再回去了：以后再看前沿模型，不能只看它会不会写代码。还得看它会不会找洞，会不会连洞，会不会把现实世界里本来很昂贵的攻击工作，压缩成一套越来越可复制的流程。

如果这一步已经开始，后面的讨论就不会只是模型能力讨论了。它会慢慢变成基础设施讨论，也会变成安全治理讨论。

参考链接

官方说明 1：https://www.anthropic.com/glasswing
官方说明 2：https://red.anthropic.com/2026/mythos-preview/
外部解读：https://simonwillison.net/2026/Apr/7/project-glasswing/
公开讨论 1：https://x.com/AnthropicAI/status/2041578392852517128
公开讨论 2：https://x.com/kevinroose/status/2041577176915702169
公开讨论 3：https://x.com/testingcatalog/status/2041585106930790654
公开代码线索 1：https://github.com/openbsd/src
公开代码线索 2：https://github.com/google/oss-fuzz
公开安全公告：https://github.com/randombit/botan/security/advisories/GHSA-v782-6fq4-q827
参考文章 1：https://mp.weixin.qq.com/s/65InrfIG5IvcimS7K9Eqvw
参考文章 2：https://mp.weixin.qq.com/s/oyYyewA01or5FP5kF4dqtg
参考文章 3：https://mp.weixin.qq.com/s/LWitPNXRHqnYw2QJ05pe-Q