模型能力对比评测 系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现,数据说话。

← 返回合集列表
120
Moonshot(Kimi)企业选型要点:定价入口与隐私/保留条款核对

按统一口径整理 Kimi:官方定价入口与隐私政策条款中对“用户内容用于改进”的描述,以及企业落地时需要的门禁。

2026-01-07模型评测模型深潜
121
Cohere(Command R / R+)企业选型要点:RAG 友好与企业数据承诺

按统一口径整理 Cohere:面向企业的训练/保留/ZDR 承诺、部署形态差异,以及在 RAG 场景下的落地核对点。

2026-01-06模型评测模型深潜
123
拿 GLM-5 重构了一个真实项目,跟 Claude Opus 比了比

大家好,我是 147。

2026-05-26模型能力对比评测
124
GLM-5 的 200K 上下文,聊着聊着就忘了

大家好,我是 147。

2026-05-26模型能力对比评测
125
Seedream 5.0 Preview 资料整理(含来源)

截至 2026-02-11,我在字节跳动 Seed 官方“Seed Models”页面中没有看到名为 Seedream 5.0 Preview 的官方条目;该页面“GenMedia”分类下公开列出的图像模型为 Seedream 4.5 与

2026-05-26模型能力对比评测
126
拿 GLM-5 重构了一个真实项目,跟 Claude Opus 比了比

大家好,我是 147。

2026-05-26模型能力对比评测
127
字节 Seedream 5.0 vs Midjourney v6:国产 AI 这一次真的“遥遥领先”了吗?

大家好,我是 147。

2026-05-26模型能力对比评测
128
就在刚刚!OpenAI深夜突袭发布GPT-5.4 Mini与Nano,性能逼近旗舰,大模型价格战彻底终结?

OpenAI在深夜直接扔出两枚深水炸弹:GPT-5.4 Mini 和 GPT-5.4 Nano 正式解禁,不仅在代码测试中直逼满血版,更成为了当下最火AI框架的完美燃料。

2026-05-13模型能力对比评测
129
别再凭感觉选型:可复现 LLM 评测框架(数据集/指标/回归)

“哪个模型更好”这种问题,最怕用“我感觉”来回答。因为模型效果会随:提示词版本、温度参数、上下文长度、业务数据变化而波动;如果你没有一套可复现的评测框架,今天选的“最好”,下周可能就变成“翻车最多”。

2026-01-30模型能力对比评测
上一页1567