模型能力对比评测系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现，数据说话。

← 返回合集列表

Seedance 2.0 vs Sora 2 vs Veo 3.1：2026 年 AI 视频三巨头终极对决

AI 视频生成在 2026 年 2 月正式进入三国时代。

2026-02-09模型能力对比评测

同一周发布：Seedance 2.0 和 Kling 3.0 到底谁赢了

2026 年 2 月的第一周，中国 AI 视频圈发生了一件挺罕见的事：字节的 Seedance 2.0 和快手的 Kling 3.0 几乎同时发布。

2026-02-10模型能力对比评测

别被 Demo 骗了：Seedance 2.0 真实出片率到底多少

每次有新的视频模型发布，官方 Demo 都好看得不行。Seedance 2.0 也不例外——追逐戏的运镜行云流水，广告片的产品细节纤毫毕现，角色表情生动自然。

2026-02-10模型能力对比评测

我扒了十几篇测评，告诉你 Seedance 2.0 到底行不行

Seedance 2.0 发布不到 48 小时，我的信息流已经炸了。

2026-02-10模型能力对比评测

快了 2.5 倍真的不掉智商？Claude Opus 4.6 Fast 模式实测

2 月 7 号，Anthropic 给 Opus 4.6 加了个 Fast 模式。官方说法是"速度提升 2.5 倍，智能水平不变"。

2026-02-10模型能力对比评测

2026 年 AI 大模型的新战场不是智商，是速度

2 月 5 号，OpenAI 发了 GPT-5.3 Codex，比 5.2 快 25%。同一天，Anthropic 发了 Opus 4.6。两天后，Opus 4.6 又追加了 Fast 模式，速度翻 2.5 倍。

2026-02-10模型能力对比评测

Seedream 4.5 到底强在哪？三大能力拆解实测

字节跳动火山引擎最近放出了图像生成模型 Seedream 4.5，官方说法是"全方位提升"。这种话听多了容易免疫，所以我去翻了官方页面、第三方测评和社区反馈，把它的三个主打能力拆开看了一遍。

2026-02-11模型能力对比评测

中文海报排版实测：Seedream 4.5 能替代基础平面设计吗

做过中文海报的人都知道一个痛点：AI 生图里的中文字，十次有九次是乱码。Midjourney、Stable Diffusion、DALL-E，在中文渲染这件事上全军覆没。你只能先生成一张没有文字的底图，然后打开 Photoshop 手动叠文

2026-02-11模型能力对比评测

我扒了全网测评，阿里 Qwen-Image 到底能不能打？

AI 视频的热闹还没散，AI 生图这边又炸了一轮。

2026-02-11模型能力对比评测

Gemini 3.1 Pro 基准测试深度拆解：ARC-AGI-2 的 77 分到底说明了什么

2 月 19 日 Google 发布 Gemini 3.1 Pro，公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%，上一代 Gemini 3 Pro 只有 31.1%，翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 P

2026-02-25模型能力对比评测

Gemini 3.1 Pro 基准测试没你想的那么简单

2月19日，Google 发布了 Gemini 3.1 Pro，公告里的数字很好看：ARC-AGI-2 得了 77.1%，比上一代 Gemini 3 Pro 的 31.1% 翻了一倍多。很多报道直接说"完胜 GPT-5.2 和 Claude

2026-02-25模型能力对比评测

Gemini 3.1 Pro 跑分 77，我翻完了 Model Card 觉得没那么简单

2026-02-25模型能力对比评测

Gemini 3.1 Pro 100 万 token 塞进去，它到底记住了多少

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口，是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题，检索准确率接近 100%。

2026-02-25模型能力对比评测

Gemini 3.1 Pro 百万 token 上下文实测：塞进去的信息它真的记得住吗

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口，是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题，检索准确率接近 100%。

2026-02-25模型能力对比评测

百万 token 的上下文窗口，Gemini 3.1 Pro 真的解决了「越长越烂」的问题吗

Gemini 3.1 Pro 支持 100 万 token 的输入上下文。官方宣传说解决了"迷失在中间"（Lost in the Middle）问题，100 万 token 下检索准确率接近 100%。听起来很厉害，不过我把 Model C

2026-02-25模型能力对比评测

Gemini 3.1 Pro 多模态能力实测：一小时视频扔进去能看懂多少

Google 反复说 Gemini 3.1 Pro 是"原生多模态"模型——图片、音频、视频、PDF 都能一起处理。这个说法从 Gemini 1.0 就开始用了，到 Gemini 3.1 Pro 已经是第四代了。

2026-02-25模型能力对比评测

Gemini 3.1 Pro 传了一小时视频进去，结果有点意外

2026-02-25模型能力对比评测

把一小时视频扔给 Gemini 3.1 Pro，它能做什么，不能做什么

"原生多模态"这个说法 Google 用了很久，但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入，听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里，把它们挖出来才能知道实际

2026-02-25模型能力对比评测

Gemini 3.1 Pro 智能体能力拆解：MCP Atlas 和 BrowseComp 跑分背后的真相

2026 年最热的 AI 话题不是"模型有多聪明"，而是"模型能不能自己干活"。智能体（Agent）——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

2026-02-25模型能力对比评测

Gemini 3.1 Pro 做 Agent 到底行不行，我把跑分一项项拆了

2026-02-25模型能力对比评测

模型能力对比评测 系列

模型能力对比评测系列