模型能力对比评测 系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现,数据说话。

← 返回合集列表
60
DeepSeek v4 的“完美谎言”:一本正经的逻辑陷阱

最近 DeepSeek v4 在 GitHub 和 X 上吵翻了天。大家都在吹它 SWE-Bench 83.7% 的逆天分数,但我盯着 GitHub Issue #1088 里的那份“诊断报告”,背后却是一阵发凉。

2026-03-02模型能力对比评测
61
Gemini 3.1 Flash-Lite:快得离谱,“Lite”却不再便宜

3 月 3 日,Google 把 Gemini 3.1 Flash-Lite 上线到了 Gemini API 和 Vertex AI(预览版)。没有太多铺垫,但圈子里讨论很集中:速度是真的快;而“Lite”这两个字,这次有点误导人。

2026-03-04模型能力对比评测
62
微软 Copilot Cowork 技术拆解:为什么 Claude 成了 Agent 的核心?

微软最近发布的 Copilot Cowork 在技术圈引起了不小的轰动。这不仅仅是因为它是一个新的办公助手,更重要的是,它的核心驱动模型选择了 Anthropic 的 Claude,而不是自家的 OpenAI GPT 系列。

2026-03-10模型能力对比评测
63
Embedding 2 来了,RAG 这回真要变天了?

这两天在 X(推特)和 GitHub 上刷了一圈,发现大家都在讨论 Google 刚刚发布的 Gemini Embedding 2。

2026-03-12模型能力对比评测
64
试用了 Google 新出的 Embedding 2,关于 RAG 的一些碎碎念

深夜刷 GitHub,偶然看到 Google 悄悄发布了 Gemini Embedding 2。

2026-03-12模型能力对比评测
65
Claude 100万 Token 正式开放:降价了,但我不建议你无脑用

Claude 终于把 100 万 token 的口子彻底放开了。

2026-03-16模型能力对比评测
66
Claude 100万上下文:向量数据库要退休了吗?

Anthropic 刚在 X 上发了条推,Claude 现在支持 100万 Token(1M Context Window) 上下文了。这消息在圈子里传得挺快,GitHub 上相关讨论也不少。

2026-03-16模型能力对比评测
67
Claude Opus 4.6 震撼发布:100万 Context 正式 GA,RAG 的棺材板还要压多久?

就在刚刚,Anthropic 官方在 X(原 Twitter)上正式宣布:Claude Opus 4.6 和 Sonnet 4.6 的 100万 Token(1M Context Window)上下文窗口正式 GA(Generally Av

2026-03-16模型能力对比评测
68
深夜放榜:GPT-5.4 mini 和 nano 到底有多能打?我翻了翻推特和 GitHub

昨晚 OpenAI 悄无声息地扔出了 GPT-5.4 mini 和 nano。没有预热,直接就上线了。

2026-03-18模型能力对比评测
69
当 AI 变得像自来水一样便宜,我们的焦虑还要持续多久?

昨晚,OpenAI 毫无预兆地上线了两个小模型:GPT-5.4 mini 和 nano。

2026-03-18模型能力对比评测
70
Claude Opus 4.7 为什么会口碑两极分化

Anthropic 刚把 Claude Opus 4.7 推出来,网上的反应就很典型地分成了两拨。

2026-04-17模型能力对比评测
71
别只盯着 Nano Banana 了,GPT-Image-2 悄悄上线,生图圈又卷起来了

我半夜刷着 X(原推特),看这帮大佬放出的测试图,感觉这行真是不给人喘息的机会。

2026-04-21模型能力对比评测
72
我扒了全网的测评,告诉你 ChatGPT Images 2.0 到底行不行

ChatGPT Images 2.0(GPT Image-2)发布不到 24 小时,我的信息流已经被各种生成的图片刷屏了。

2026-04-22模型能力对比评测
73
GPT-5.5发布解读,从Benchmark到Agent执行能力看它强在哪

GPT-5.5 发布之后,很多开发者第一反应是两句:“又贵了”和“好像真强了”。如果只看这两个结论,其实不够。

2026-04-24模型能力对比评测
74
GPT-5.5一发,为什么大家突然开始讨论AI打工了

GPT-5.5 这次出来,我最明显的感受不是“它又强了一点”,而是很多人突然不再把它当成一个聊天模型看了。

2026-04-24模型能力对比评测
75
GPT-5.5为什么会让开发者兴奋,重点不只是代码能力

GPT-5.5 发布后,很多讨论都集中在“它代码更强了”这件事上。但如果只把它理解成一个更会写代码的模型,我觉得有点看窄了。

2026-04-24模型能力对比评测
76
GPT-5.5发布后,OpenAI开始把大模型往工作系统上推了

GPT-5.5 发布之后,关于它的讨论很快分成了两条线。

2026-04-24模型能力对比评测
77
GPT-5.5为什么会引发热议,核心升级到底是什么

GPT-5.5 发布之后,围绕它的讨论很快升温。外界最关心的,并不是它是不是又刷新了某个极限分数,而是另一个更实际的问题:GPT-5.5 到底强在哪,为什么很多人会觉得它更接近真正可用的 AI 工作系统?

2026-04-24模型能力对比评测
78
GPT-5.5为什么会引起这么大讨论,它到底强在哪?

如果只用一句话概括,我的判断是:GPT-5.5 引发讨论,不是因为它又把“大模型有多聪明”这件事往前推了一点,而是因为它把“模型能不能直接接工作”这件事,往前推了一步。

2026-04-24模型能力对比评测
79
GPT-5.5出来之后,我第一次认真觉得AI开始像同事了

GPT-5.5 发布那天,我看了不少资料,也翻了很多首批测试反馈。看完以后,我脑子里一直绕着一个感觉:这次好像不是模型又涨了几分,而是它开始更像“同事”了。

2026-04-24模型能力对比评测
上一页1234567下一页