模型能力对比评测系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现，数据说话。

← 返回合集列表

DeepSeek v4 的“完美谎言”：一本正经的逻辑陷阱

最近 DeepSeek v4 在 GitHub 和 X 上吵翻了天。大家都在吹它 SWE-Bench 83.7% 的逆天分数，但我盯着 GitHub Issue #1088 里的那份“诊断报告”，背后却是一阵发凉。

2026-03-02模型能力对比评测

Gemini 3.1 Flash-Lite：快得离谱，“Lite”却不再便宜

3 月 3 日，Google 把 Gemini 3.1 Flash-Lite 上线到了 Gemini API 和 Vertex AI（预览版）。没有太多铺垫，但圈子里讨论很集中：速度是真的快；而“Lite”这两个字，这次有点误导人。

2026-03-04模型能力对比评测

微软 Copilot Cowork 技术拆解：为什么 Claude 成了 Agent 的核心？

微软最近发布的 Copilot Cowork 在技术圈引起了不小的轰动。这不仅仅是因为它是一个新的办公助手，更重要的是，它的核心驱动模型选择了 Anthropic 的 Claude，而不是自家的 OpenAI GPT 系列。

2026-03-10模型能力对比评测

Embedding 2 来了，RAG 这回真要变天了？

这两天在 X（推特）和 GitHub 上刷了一圈，发现大家都在讨论 Google 刚刚发布的 Gemini Embedding 2。

2026-03-12模型能力对比评测

试用了 Google 新出的 Embedding 2，关于 RAG 的一些碎碎念

深夜刷 GitHub，偶然看到 Google 悄悄发布了 Gemini Embedding 2。

2026-03-12模型能力对比评测

Claude 100万 Token 正式开放：降价了，但我不建议你无脑用

Claude 终于把 100 万 token 的口子彻底放开了。

2026-03-16模型能力对比评测

Claude 100万上下文：向量数据库要退休了吗？

Anthropic 刚在 X 上发了条推，Claude 现在支持 100万 Token（1M Context Window）上下文了。这消息在圈子里传得挺快，GitHub 上相关讨论也不少。

2026-03-16模型能力对比评测

Claude Opus 4.6 震撼发布：100万 Context 正式 GA，RAG 的棺材板还要压多久？

就在刚刚，Anthropic 官方在 X（原 Twitter）上正式宣布：Claude Opus 4.6 和 Sonnet 4.6 的 100万 Token（1M Context Window）上下文窗口正式 GA（Generally Av

2026-03-16模型能力对比评测

深夜放榜：GPT-5.4 mini 和 nano 到底有多能打？我翻了翻推特和 GitHub

昨晚 OpenAI 悄无声息地扔出了 GPT-5.4 mini 和 nano。没有预热，直接就上线了。

2026-03-18模型能力对比评测

当 AI 变得像自来水一样便宜，我们的焦虑还要持续多久？

昨晚，OpenAI 毫无预兆地上线了两个小模型：GPT-5.4 mini 和 nano。

2026-03-18模型能力对比评测

Claude Opus 4.7 为什么会口碑两极分化

Anthropic 刚把 Claude Opus 4.7 推出来，网上的反应就很典型地分成了两拨。

2026-04-17模型能力对比评测

别只盯着 Nano Banana 了，GPT-Image-2 悄悄上线，生图圈又卷起来了

我半夜刷着 X（原推特），看这帮大佬放出的测试图，感觉这行真是不给人喘息的机会。

2026-04-21模型能力对比评测

我扒了全网的测评，告诉你 ChatGPT Images 2.0 到底行不行

ChatGPT Images 2.0（GPT Image-2）发布不到 24 小时，我的信息流已经被各种生成的图片刷屏了。

2026-04-22模型能力对比评测

GPT-5.5发布解读，从Benchmark到Agent执行能力看它强在哪

GPT-5.5 发布之后，很多开发者第一反应是两句：“又贵了”和“好像真强了”。如果只看这两个结论，其实不够。

2026-04-24模型能力对比评测

GPT-5.5一发，为什么大家突然开始讨论AI打工了

GPT-5.5 这次出来，我最明显的感受不是“它又强了一点”，而是很多人突然不再把它当成一个聊天模型看了。

2026-04-24模型能力对比评测

GPT-5.5为什么会让开发者兴奋，重点不只是代码能力

GPT-5.5 发布后，很多讨论都集中在“它代码更强了”这件事上。但如果只把它理解成一个更会写代码的模型，我觉得有点看窄了。

2026-04-24模型能力对比评测

GPT-5.5发布后，OpenAI开始把大模型往工作系统上推了

GPT-5.5 发布之后，关于它的讨论很快分成了两条线。

2026-04-24模型能力对比评测

GPT-5.5为什么会引发热议，核心升级到底是什么

GPT-5.5 发布之后，围绕它的讨论很快升温。外界最关心的，并不是它是不是又刷新了某个极限分数，而是另一个更实际的问题：GPT-5.5 到底强在哪，为什么很多人会觉得它更接近真正可用的 AI 工作系统？

2026-04-24模型能力对比评测

GPT-5.5为什么会引起这么大讨论，它到底强在哪？

如果只用一句话概括，我的判断是：GPT-5.5 引发讨论，不是因为它又把“大模型有多聪明”这件事往前推了一点，而是因为它把“模型能不能直接接工作”这件事，往前推了一步。

2026-04-24模型能力对比评测

GPT-5.5出来之后，我第一次认真觉得AI开始像同事了

GPT-5.5 发布那天，我看了不少资料，也翻了很多首批测试反馈。看完以后，我脑子里一直绕着一个感觉：这次好像不是模型又涨了几分，而是它开始更像“同事”了。

2026-04-24模型能力对比评测

上一页 1 2 3 4 5 6 7 下一页

模型能力对比评测 系列

模型能力对比评测系列