模型能力对比评测 系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现,数据说话。

← 返回合集列表
20
Seedance 2.0 vs Sora 2 vs Veo 3.1:2026 年 AI 视频三巨头终极对决

AI 视频生成在 2026 年 2 月正式进入三国时代。

2026-02-09模型能力对比评测
21
同一周发布:Seedance 2.0 和 Kling 3.0 到底谁赢了

2026 年 2 月的第一周,中国 AI 视频圈发生了一件挺罕见的事:字节的 Seedance 2.0 和快手的 Kling 3.0 几乎同时发布。

2026-02-10模型能力对比评测
22
别被 Demo 骗了:Seedance 2.0 真实出片率到底多少

每次有新的视频模型发布,官方 Demo 都好看得不行。Seedance 2.0 也不例外——追逐戏的运镜行云流水,广告片的产品细节纤毫毕现,角色表情生动自然。

2026-02-10模型能力对比评测
23
我扒了十几篇测评,告诉你 Seedance 2.0 到底行不行

Seedance 2.0 发布不到 48 小时,我的信息流已经炸了。

2026-02-10模型能力对比评测
24
快了 2.5 倍真的不掉智商?Claude Opus 4.6 Fast 模式实测

2 月 7 号,Anthropic 给 Opus 4.6 加了个 Fast 模式。官方说法是"速度提升 2.5 倍,智能水平不变"。

2026-02-10模型能力对比评测
25
2026 年 AI 大模型的新战场不是智商,是速度

2 月 5 号,OpenAI 发了 GPT-5.3 Codex,比 5.2 快 25%。同一天,Anthropic 发了 Opus 4.6。两天后,Opus 4.6 又追加了 Fast 模式,速度翻 2.5 倍。

2026-02-10模型能力对比评测
26
Seedream 4.5 到底强在哪?三大能力拆解实测

字节跳动火山引擎最近放出了图像生成模型 Seedream 4.5,官方说法是"全方位提升"。这种话听多了容易免疫,所以我去翻了官方页面、第三方测评和社区反馈,把它的三个主打能力拆开看了一遍。

2026-02-11模型能力对比评测
27
中文海报排版实测:Seedream 4.5 能替代基础平面设计吗

做过中文海报的人都知道一个痛点:AI 生图里的中文字,十次有九次是乱码。Midjourney、Stable Diffusion、DALL-E,在中文渲染这件事上全军覆没。你只能先生成一张没有文字的底图,然后打开 Photoshop 手动叠文

2026-02-11模型能力对比评测
28
我扒了全网测评,阿里 Qwen-Image 到底能不能打?

AI 视频的热闹还没散,AI 生图这边又炸了一轮。

2026-02-11模型能力对比评测
29
Gemini 3.1 Pro 基准测试深度拆解:ARC-AGI-2 的 77 分到底说明了什么

2 月 19 日 Google 发布 Gemini 3.1 Pro,公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%,上一代 Gemini 3 Pro 只有 31.1%,翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 P

2026-02-25模型能力对比评测
30
Gemini 3.1 Pro 基准测试没你想的那么简单

2月19日,Google 发布了 Gemini 3.1 Pro,公告里的数字很好看:ARC-AGI-2 得了 77.1%,比上一代 Gemini 3 Pro 的 31.1% 翻了一倍多。很多报道直接说"完胜 GPT-5.2 和 Claude

2026-02-25模型能力对比评测
31
Gemini 3.1 Pro 跑分 77,我翻完了 Model Card 觉得没那么简单

2 月 19 日 Google 发布 Gemini 3.1 Pro,公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%,上一代 Gemini 3 Pro 只有 31.1%,翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 P

2026-02-25模型能力对比评测
32
Gemini 3.1 Pro 100 万 token 塞进去,它到底记住了多少

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口,是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题,检索准确率接近 100%。

2026-02-25模型能力对比评测
33
Gemini 3.1 Pro 百万 token 上下文实测:塞进去的信息它真的记得住吗

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口,是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题,检索准确率接近 100%。

2026-02-25模型能力对比评测
34
百万 token 的上下文窗口,Gemini 3.1 Pro 真的解决了「越长越烂」的问题吗

Gemini 3.1 Pro 支持 100 万 token 的输入上下文。官方宣传说解决了"迷失在中间"(Lost in the Middle)问题,100 万 token 下检索准确率接近 100%。听起来很厉害,不过我把 Model C

2026-02-25模型能力对比评测
35
Gemini 3.1 Pro 多模态能力实测:一小时视频扔进去能看懂多少

Google 反复说 Gemini 3.1 Pro 是"原生多模态"模型——图片、音频、视频、PDF 都能一起处理。这个说法从 Gemini 1.0 就开始用了,到 Gemini 3.1 Pro 已经是第四代了。

2026-02-25模型能力对比评测
36
Gemini 3.1 Pro 传了一小时视频进去,结果有点意外

Google 反复说 Gemini 3.1 Pro 是"原生多模态"模型——图片、音频、视频、PDF 都能一起处理。这个说法从 Gemini 1.0 就开始用了,到 Gemini 3.1 Pro 已经是第四代了。

2026-02-25模型能力对比评测
37
把一小时视频扔给 Gemini 3.1 Pro,它能做什么,不能做什么

"原生多模态"这个说法 Google 用了很久,但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入,听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里,把它们挖出来才能知道实际

2026-02-25模型能力对比评测
38
Gemini 3.1 Pro 智能体能力拆解:MCP Atlas 和 BrowseComp 跑分背后的真相

2026 年最热的 AI 话题不是"模型有多聪明",而是"模型能不能自己干活"。智能体(Agent)——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

2026-02-25模型能力对比评测
39
Gemini 3.1 Pro 做 Agent 到底行不行,我把跑分一项项拆了

2026 年最热的 AI 话题不是"模型有多聪明",而是"模型能不能自己干活"。智能体(Agent)——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

2026-02-25模型能力对比评测
上一页12347下一页