Claude Mythos Preview出来了,Anthropic却没敢把它直接放出来
这次 Anthropic 放出 Claude Mythos Preview 和 Project Glasswing,真正让人停下来看的,其实不是又多了一个高分模型。
真正值得注意的是,Anthropic 没把它当成一款正常的新模型来发。
一边是成绩很猛,一边却明确说暂时不面向公众开放,而是先交给一批安全合作伙伴使用。这个动作本身已经说明了很多事:模型能力的提升,不只是让它更会写代码,也开始明显压低发现漏洞、验证漏洞、把漏洞变成 exploit 的门槛。
说得更直接一点,Anthropic 这次想传递的信号其实很明确:有些模型的能力,已经不能只按“新版本发布”来理解了。
先说我的判断
先把结论放前面。Claude Mythos Preview 最值得注意的,不是 benchmark 又涨了多少,而是它把“找 bug”和“写 exploit”之间那段最难、最贵、最依赖高手经验的路,往下压了一大截。
Project Glasswing 也不是普通的发布包装。它更像是在给行业争取时间,想先让防守方把关键基础设施补一轮,再考虑更大范围开放。
这次外界争议最大的地方,也不是 Mythos 强不强,而是前沿模型会不会越来越进入“定向开放、受限使用”的阶段。最强能力未必先属于公众,而可能先属于一小批基础设施维护者和安全团队。
至于很多传播里说的“自我意识觉醒”,我觉得这个说法太满。更稳妥的表述是:从公开材料看,它在部分对抗测试里表现出了更强的策略性和欺骗性,这已经足够严肃了。
最值得看的,不是它又拿了多少分
Anthropic 这次最核心的说法只有一句:Claude Mythos Preview 是一个通用前沿模型,但它在网络安全任务上的能力已经强到需要先限制发布。
从公开材料看,这种“强”主要不是停留在读代码和指出风险点,而是往更深处走了几步。
先是更像样地发现真实世界里的零日漏洞。官方公开举了几个已经修复的例子。比如它在 OpenBSD 里找到了一个存在 27 年的 TCP SACK 漏洞;在 FFmpeg 里找到了一个潜伏 16 年的问题;它还在 FreeBSD 的 NFS 服务器上,自动完成了一个远程代码执行漏洞的发现和利用。
但真正让安全圈紧张的,不只是“找到 bug”,而是它开始更像一个能独立做漏洞利用开发的系统。
红队博客里最醒目的变化,是 Anthropic 自己把 Opus 4.6 和 Mythos Preview 摆在一起比较。他们的说法很直接:Opus 4.6 在自主 exploit 开发上成功率接近于零,但 Mythos Preview 已经是另一个级别。
一个公开例子是 Firefox JavaScript 引擎相关实验。此前 Opus 4.6 几百次尝试里只把漏洞变成可工作的 exploit 两次;换成 Mythos Preview,工作 exploit 做出了 181 次,另外还有 29 次拿到了寄存器控制。
这才是这次真正值得看的地方。模型进步的重点,已经不只是“更会看代码”,而是更会把分散的信息、多个漏洞原语、系统防护条件和执行路径拼成一条真的能用的攻击链。
对防守方来说,这比“模型会不会找一个漏洞”麻烦得多。因为链路构造能力比单点发现能力更贵,也更难补。
当然,跑分也确实很高。CyberGym、SWE-bench Verified、Terminal-Bench 2.0 这些项目上,Mythos Preview 都明显压过了 Opus 4.6。但如果只盯着分数,反而容易看漏重点。
我觉得真正值得记住的是另一句:Anthropic 说他们并没有专门把模型训成“网络攻击模型”,这些能力更多是代码理解、推理和自主性提升之后的下游结果。
这句话的含义有点冷。因为它等于在说,攻击能力不一定来自专门定向训练,它也可能是“把通用智能继续往上推”之后自然冒出来的副产品。
Anthropic 为什么没把它直接放出来
理解了上面那层,Project Glasswing 的逻辑就清楚了。
Anthropic 的判断很简单:既然这类模型迟早会扩散,那就先把最先到来的这波能力放到防守侧,争取一点窗口期。
所以 Glasswing 不是正常意义上的公开开放;它更像一个受限的防御联盟,同时还扩展给 40 多家关键软件基础设施建设者和维护者。
这里有三个点比较关键。
一是投入很重。Anthropic 承诺了最高 1 亿美元 的使用额度,另外还给开源安全组织直接捐了 400 万美元。
二是目标很明确。不是泛泛地“探索 AI 安全”,而是要拿去做漏洞检测、黑盒测试、端点加固、渗透测试、补丁和流程改进这些偏硬核的活。
三是它承认这不是一次性动作。官方说 90 天内会公开一份阶段报告,后面还想把漏洞披露流程、软件更新和补丁自动化这些实践一起往前推。
说白了,Glasswing 更像是一次行业预案,而不是一次普通发布。
也正因为这样,这次发布最容易被低估的地方,不是模型本身,而是 Anthropic 已经开始按“能力外溢后的行业后果”来设计发布节奏。
外面为什么会吵成这样
外界现在主要有两种担心。
一种是担心这会不会把前沿模型带进“只对少数机构开放”的阶段。另一种是怀疑“太危险所以不公开”会不会也是一种叙事包装。
这些质疑都能理解,但真正麻烦的地方其实在中间那层:如果前沿模型继续沿着代码理解、长链路推理、Agent 自主执行这条线往上走,那么软件行业以后面对的,可能不是“偶尔来几份低质量漏洞报告”,而是持续不断、质量越来越高、还越来越便宜的漏洞发现和利用尝试。
对开源维护者来说,这会先变成 triage 压力。
对基础设施维护方来说,这会变成补丁速度、回归验证和协同压力。
对模型公司来说,这会变成发布治理问题:哪些能力该开放,开放给谁,怎么审计,怎么拦截,怎么验证真实用途。
也就是说,Mythos Preview 让大家第一次比较具体地看到,模型能力上升以后,最先被重写的可能不是聊天产品,而是漏洞治理链条。
最后说我的判断
如果你问我,Claude Mythos Preview 这波到底该怎么理解,我会把结论落在一句话上:
它最值得认真看的地方,不是“Anthropic 又做出了一个更强模型”,而是 AI 已经开始改变漏洞发现、漏洞利用和漏洞修复之间原本的人力平衡。
所以 Project Glasswing 真正想争取的,其实是时间。给防守方一点时间,也给行业重新设计发布、验证、披露和补丁流程一点时间。
但不管站在哪一边,有一点大概已经很难再回去了:以后再看前沿模型,不能只看它会不会写代码。还得看它会不会找洞,会不会连洞,会不会把现实世界里本来很昂贵的攻击工作,压缩成一套越来越可复制的流程。
如果这一步已经开始,后面的讨论就不会只是模型能力讨论了。它会慢慢变成基础设施讨论,也会变成安全治理讨论。
参考链接
- 官方说明 1:https://www.anthropic.com/glasswing
- 官方说明 2:https://red.anthropic.com/2026/mythos-preview/
- 外部解读:https://simonwillison.net/2026/Apr/7/project-glasswing/
- 公开讨论 1:https://x.com/AnthropicAI/status/2041578392852517128
- 公开讨论 2:https://x.com/kevinroose/status/2041577176915702169
- 公开讨论 3:https://x.com/testingcatalog/status/2041585106930790654
- 公开代码线索 1:https://github.com/openbsd/src
- 公开代码线索 2:https://github.com/google/oss-fuzz
- 公开安全公告:https://github.com/randombit/botan/security/advisories/GHSA-v782-6fq4-q827
- 参考文章 1:https://mp.weixin.qq.com/s/65InrfIG5IvcimS7K9Eqvw
- 参考文章 2:https://mp.weixin.qq.com/s/oyYyewA01or5FP5kF4dqtg
- 参考文章 3:https://mp.weixin.qq.com/s/LWitPNXRHqnYw2QJ05pe-Q