智谱偷偷在 OpenRouter 上挂了个匿名模型,六天后被扒出来了

智谱偷偷在 OpenRouter 上挂了个匿名模型,六天后被扒出来了

大家好,我是 147。

2 月 6 号那天,OpenRouter 上突然出现了一个叫 Pony Alpha 的模型。没有公司 logo,没有发布会,连个像样的介绍页面都没有。免费用,200K 上下文窗口,最大输出 131K token。六天后,智谱确认这就是 GLM-5 的测试版。

这件事迅速失控了。

Pony Alpha 匿名上线的六天

开发者们注意到这个模型的速度很快——大概 18 token/s。更关键的是,编码能力出奇地好。有人拿 SWE-bench 的题去测,发现通过率跟 Claude Opus 4.5 在一个量级。Kilo Code 团队甚至专门写了篇博客宣传这个模型,说它来自"我们最受欢迎的实验室合作伙伴之一",但拒绝透露具体是谁。

社区开始猜。有人说 DeepSeek,有人说阿里,还有人怀疑是某个不知名的创业公司。

真正的突破口来自一个简单的测试:有人通过 API 直接问模型"你是谁"。模型回答说自己是 GLM。

然后就炸了。"Pony"这个名字在中文语境里跟"马"有关,2026 年是马年。这么一看,名字起得挺有心机。

2 月 12 号,智谱正式宣布 GLM-5 开源。同时确认:Pony Alpha 就是 GLM-5 的测试版。

智谱为什么选择匿名发布 GLM-5

The Information 的 Juro Osawa 最先报道了这件事。他的消息源指出,智谱选择匿名上线,目的是做"无品牌干扰的盲测"。

这个做法在行业里不算新鲜。OpenAI 在 chatbot arena 上匿名测试过 GPT-4 的早期版本,Anthropic 也有类似操作。好处是:用户反馈不会被品牌预期污染。你觉得好用不是因为看到了"Claude"的牌子,而是模型本身确实能打。

但也有人不这么想。Reddit 上有用户翻了 OpenRouter 的 Pony Alpha 页面,发现最底下有一行小字:

All prompts and completions for this model are logged by the provider and may be used to improve the model.

也就是说,你发给 Pony Alpha 的所有 prompt 和回复,都被记录了。免费的代价是你的数据。

Pony Alpha 数据记录的隐私风险

我倒不觉得智谱在搞什么阴谋。大模型训练需要数据,用免费 API 换用户 prompt 是行业通行做法。OpenAI 的免费版也是这么干的。

但问题在于信息披露。Pony Alpha 发布的时候,很多开发者是冲着"免费 + 匿名 = 没有约束"去的。有人拿来写正式项目的代码,有人甚至传了内部文档上去跑总结。

这几天我在 X 上看到一个开发者说,他把公司的一整套 API 规范喂给了 Pony Alpha,让它帮忙写 SDK。等发现数据会被记录之后才开始慌。

教训挺直白的:免费模型,尤其是来历不明的免费模型,别拿公司的核心代码去喂。

GLM-5 (Pony Alpha) 的编码和推理能力实测

Pony Alpha 期间社区积累了不少第一手体验,摘几个有代表性的:

编码任务。用户普遍反馈,写 Python 和 TypeScript 的水平接近 Claude Opus 4.5,尤其是多文件重构和调试场景。有些人说比 DeepSeek-V3.2 更稳,debug 的时候不容易陷入死循环。

工具调用。作为 Agent 的后端模型,Pony Alpha 的 function calling 准确率相当高。Kilo Code 拿它做了几个内部 demo,效果到了能用的程度。

长文本。200K 的上下文窗口实测可用,但接近尾部的时候偶尔会出现遗忘现象。这个问题在正式版 GLM-5 里有没有改善,还需要更多测试。

速度。18 token/s 的生成速度在 MoE 模型里算中等偏上。跟 Claude Opus 的速度差不多,比 DeepSeek-V3.2 稍慢。

AI 模型匿名公测的策略得失

我觉得匿名上线本身是个不错的产品策略。让模型先"裸跑"一阵子,收集真实场景的反馈,比关起门来做内部评测有价值得多。

但有几个前提。第一,数据收集的范围和用途要说清楚,放在页面最显眼的位置,而不是藏在底部小字里。第二,模型的身份可以保密,但运营方的身份不应该保密——用户至少应该知道自己的数据交给了谁。第三,如果要做大规模公测,最好提供一个"不记录 prompt"的付费选项,让对隐私敏感的用户有得选。

智谱这次基本做到了第一条(虽然写得不够醒目),第二条做得比较晚(等了六天才承认),第三条没做。

使用免费 AI 模型的安全检查清单

我从这件事里总结了一个清单,以后遇到"来历不明的免费模型"时可以对照着看:

  1. 检查模型页面有没有数据使用声明。如果写了"prompts may be logged",别拿敏感代码去测
  2. 用 system prompt 问模型"你是谁",看回复里有没有泄露真实身份的线索
  3. 免费模型适合做概念验证和个人项目,不适合生产环境
  4. 匿名模型的评测结果要打个折扣——你不知道它的训练数据里有没有你正在测的 benchmark

六天的 Pony Alpha 已经变成了 GLM-5。但下一个匿名模型可能明天就会出现在某个 API 市场上。到时候,记得先看小字。

常见问题

Pony Alpha 和 GLM-5 是什么关系? Pony Alpha 是智谱在 2026 年 2 月 6 日匿名上线到 OpenRouter 的模型,2 月 12 日智谱确认它就是 GLM-5 的测试版本。

Pony Alpha 免费使用有什么代价? 所有发送给 Pony Alpha 的 prompt 和模型回复都会被记录,可能用于模型训练。不建议传入公司核心代码或敏感数据。

GLM-5 的编码能力跟 Claude Opus 4.5 比怎么样? 社区实测显示 GLM-5 在 Python / TypeScript 的编码任务上接近 Claude Opus 4.5,在 SWE-bench Verified 上得分 77.8%(Claude Opus 4.5 为 80.9%)。


参考资料:

  • OpenRouter Pony Alpha 页面:openrouter.ai/openrouter/pony-alpha
  • The Information 报道:Juro Osawa, "Zhipu anonymously released Pony Alpha on OpenRouter"
  • Kilo Code 博客:blog.kilo.ai/p/announcing-a-deep-thinking-new-stealth
  • 每经网:"智谱开源GLM-5,确认此前在OpenRouter匿名上线"
← 返回博客列表