模型能力对比评测系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现，数据说话。

从 MCP Atlas 到 BrowseComp，Gemini 3.1 Pro 的智能体任务成绩怎么读

Model Card 里有一批智能体（Agentic）相关的基准测试，这类测试是现在 AI 圈讨论最多的评测维度。和做一道数学题或者背知识点不同，智能体任务要求模型连续决策、调用工具、在失败时自己修正——更接近真实工作中的使用场景。我把 G

2026-02-25模型能力对比评测

扒完全网测评，Gemini 3.1 Pro 到底能不能打？

Google 又放大招了。

2026-02-25模型能力对比评测

把一部电影扔给谷歌新 AI，它的反应让我有点发毛……

我们都知道现在的 AI 能读文章、能看图。但如果我直接扔给它一部 1 小时的电影视频，它能看懂吗？

2026-02-25模型能力对比评测

三大 AI 编程模型企业落地实测：Opus、GPT、Gemini 谁更适合你的团队

2026 年 2 月，Anthropic、OpenAI 和 Google 几乎同时发布了新一代编程模型。本文从企业 IT 团队的实际需求出发，围绕运维自动化、安全合规、成本管控和团队协作四个方面，对三个模型做横向对比，给出落地选型参考。

2026-02-26模型能力对比评测

Opus 4.6 封神，GPT-5.3 拼命，Gemini 3.1 掀桌

这个二月简直让人没法睡。

2026-02-26模型能力对比评测

2026 年 2 月 AI 编程三巨头实战横评 | 附代码和踩坑记录

三个模型都在 2 月发布，先列个参数卡：

2026-02-26模型能力对比评测

三个顶级 AI 编程模型我全用了一周，说说真实感受

Claude Opus 4.6 适合想清楚再动手的人，GPT-5.3-Codex 适合先动手再说的人，Gemini 3.1 Pro 适合钱不够但活儿不少的人。

2026-02-26模型能力对比评测

我花了一周同时用三个 AI 写代码，结果出乎意料

二月份发生了一件挺魔幻的事。

2026-02-26模型能力对比评测

商业实战：Gemini 3.1 Flash (Nano Banana 2) 商品图生成能力评测

对于电商和营销行业来说，AI 生图不是为了艺术，而是为了带货。一直以来，AI 生图在商业落地上面临两大痛点：产品变形（不像卖的东西）和文字乱码（无法生成海报）。

2026-02-27模型能力对比评测

技术评测：Gemini 3.1 Flash Image (Nano Banana 2) 图像生成质量分析

Google 最新发布的 Gemini 3.1 Flash Image Preview（Nano Banana 2）宣称在保持低延迟的同时提供 Pro 级画质。本文将通过多组对照实验，从技术角度量化评估其图像生成能力，重点关注文本渲染、细节

2026-02-27模型能力对比评测

Google "Nano Banana 2" (Gemini 3.1) 生图能力深度评测：它能取代 Midjourney 吗？

Google 最近发布的 Gemini 3.1 Flash Image Preview（代号 "Nano Banana 2"）在 AI 圈引发热议。从参数上看，它试图用“Flash 速度”和“低成本”挑战 Midjourney 和 Stab

2026-02-27模型能力对比评测

谷歌这波操作我看笑了，代号 Nano Banana？但实测有点东西

兄弟们，谷歌是彻底放飞自我了吗？

2026-02-27模型能力对比评测

告别抽卡？Google Nano Banana 2 生图体验：这次 AI 终于听懂人话了

作为一名被 Midjourney 虐过无数遍的创作者，我对 AI 生图的感情是复杂的：爱它的惊艳，恨它的不可控。每次为了抽出一张满意的图，都要经历无数次的 Retry 和 Upscale，简直像是在买彩票。

2026-02-27模型能力对比评测

实测 Google "Nano Banana 2"：我在 8 秒内生成了一张带字的完美海报

大家都在聊 Google 新出的 Gemini 3.1 Flash Image Preview（代号 Nano Banana 2）有多便宜，参数有多强。但我只关心一件事：它画图到底好不好用？

2026-02-27模型能力对比评测

NanoBanana 2 突袭发布：Flash 速度真能打败 Pro 级画质？全网最全对比评测

这两天 AI 圈子又热闹了，Google 悄无声息地发布了 NanoBanana 2。

2026-02-28模型能力对比评测

深度测评：NanoBananaPro 与 NanoBanana2 同提示词下的画质对决

在 Nano Banana 2 还没发布之前，Nano Banana Pro 毫无疑问是整个 Banana 系列（Gemini 生图模型）中“最能打”的存在——无论是画质的细腻度还是对复杂语义的理解，它都稳坐头把交椅，几乎没有对手。

2026-03-02模型能力对比评测

深度测评：NanoBananaPro 与 NanoBanana2 同提示词下的画质对决

最近 AI 绘画圈子里出了个有意思的事儿：谷歌的 Gemini 系列生图模型被大家戏称为 "Nano Banana"（纳米香蕉？），而且还分成了 Pro 和 2 两个版本。

2026-03-02模型能力对比评测

DeepSeek v4 架构大拆解：这次不拼参数，拼“脑回路”

DeepSeek V3 刚发布的时候，大家都在喊“真香”，API 便宜得让人怀疑人生。结果 V4 的消息一出，GitHub 上的 Issue 区直接变成了“大型吃瓜现场”。

2026-03-02模型能力对比评测

DeepSeek v4 上线了？你的 AI 还要什么自行车

最近技术圈又炸锅了。

2026-03-02模型能力对比评测

DeepSeek v4 杀疯了？V3 还没捂热，新王这就登基了？

大家好，我是 147。

2026-03-02模型能力对比评测

模型能力对比评测 系列

模型能力对比评测系列