模型能力对比评测 系列

用可复现的方法横向对比主流大模型在代码、推理、长文本等场景下的实际表现,数据说话。

← 返回合集列表
40
从 MCP Atlas 到 BrowseComp,Gemini 3.1 Pro 的智能体任务成绩怎么读

Model Card 里有一批智能体(Agentic)相关的基准测试,这类测试是现在 AI 圈讨论最多的评测维度。和做一道数学题或者背知识点不同,智能体任务要求模型连续决策、调用工具、在失败时自己修正——更接近真实工作中的使用场景。我把 G

2026-02-25模型能力对比评测
41
扒完全网测评,Gemini 3.1 Pro 到底能不能打?

Google 又放大招了。

2026-02-25模型能力对比评测
42
把一部电影扔给谷歌新 AI,它的反应让我有点发毛……

我们都知道现在的 AI 能读文章、能看图。但如果我直接扔给它一部 1 小时的电影视频,它能看懂吗?

2026-02-25模型能力对比评测
43
三大 AI 编程模型企业落地实测:Opus、GPT、Gemini 谁更适合你的团队

2026 年 2 月,Anthropic、OpenAI 和 Google 几乎同时发布了新一代编程模型。本文从企业 IT 团队的实际需求出发,围绕运维自动化、安全合规、成本管控和团队协作四个方面,对三个模型做横向对比,给出落地选型参考。

2026-02-26模型能力对比评测
44
Opus 4.6 封神,GPT-5.3 拼命,Gemini 3.1 掀桌

这个二月简直让人没法睡。

2026-02-26模型能力对比评测
45
2026 年 2 月 AI 编程三巨头实战横评 | 附代码和踩坑记录

三个模型都在 2 月发布,先列个参数卡:

2026-02-26模型能力对比评测
46
三个顶级 AI 编程模型我全用了一周,说说真实感受

Claude Opus 4.6 适合想清楚再动手的人,GPT-5.3-Codex 适合先动手再说的人,Gemini 3.1 Pro 适合钱不够但活儿不少的人。

2026-02-26模型能力对比评测
47
我花了一周同时用三个 AI 写代码,结果出乎意料

二月份发生了一件挺魔幻的事。

2026-02-26模型能力对比评测
48
商业实战:Gemini 3.1 Flash (Nano Banana 2) 商品图生成能力评测

对于电商和营销行业来说,AI 生图不是为了艺术,而是为了带货。一直以来,AI 生图在商业落地上面临两大痛点:产品变形(不像卖的东西)和 文字乱码(无法生成海报)。

2026-02-27模型能力对比评测
49
技术评测:Gemini 3.1 Flash Image (Nano Banana 2) 图像生成质量分析

Google 最新发布的 Gemini 3.1 Flash Image Preview(Nano Banana 2)宣称在保持低延迟的同时提供 Pro 级画质。本文将通过多组对照实验,从技术角度量化评估其图像生成能力,重点关注文本渲染、细节

2026-02-27模型能力对比评测
50
Google "Nano Banana 2" (Gemini 3.1) 生图能力深度评测:它能取代 Midjourney 吗?

Google 最近发布的 Gemini 3.1 Flash Image Preview(代号 "Nano Banana 2")在 AI 圈引发热议。从参数上看,它试图用“Flash 速度”和“低成本”挑战 Midjourney 和 Stab

2026-02-27模型能力对比评测
51
谷歌这波操作我看笑了,代号 Nano Banana?但实测有点东西

兄弟们,谷歌是彻底放飞自我了吗?

2026-02-27模型能力对比评测
52
告别抽卡?Google Nano Banana 2 生图体验:这次 AI 终于听懂人话了

作为一名被 Midjourney 虐过无数遍的创作者,我对 AI 生图的感情是复杂的:爱它的惊艳,恨它的不可控。每次为了抽出一张满意的图,都要经历无数次的 Retry 和 Upscale,简直像是在买彩票。

2026-02-27模型能力对比评测
53
实测 Google "Nano Banana 2":我在 8 秒内生成了一张带字的完美海报

大家都在聊 Google 新出的 Gemini 3.1 Flash Image Preview(代号 Nano Banana 2)有多便宜,参数有多强。但我只关心一件事:它画图到底好不好用?

2026-02-27模型能力对比评测
54
NanoBanana 2 突袭发布:Flash 速度真能打败 Pro 级画质?全网最全对比评测

这两天 AI 圈子又热闹了,Google 悄无声息地发布了 NanoBanana 2。

2026-02-28模型能力对比评测
55
深度测评:NanoBananaPro 与 NanoBanana2 同提示词下的画质对决

在 Nano Banana 2 还没发布之前,Nano Banana Pro 毫无疑问是整个 Banana 系列(Gemini 生图模型)中“最能打”的存在——无论是画质的细腻度还是对复杂语义的理解,它都稳坐头把交椅,几乎没有对手。

2026-03-02模型能力对比评测
56
深度测评:NanoBananaPro 与 NanoBanana2 同提示词下的画质对决

最近 AI 绘画圈子里出了个有意思的事儿:谷歌的 Gemini 系列生图模型被大家戏称为 "Nano Banana"(纳米香蕉?),而且还分成了 Pro 和 2 两个版本。

2026-03-02模型能力对比评测
57
DeepSeek v4 架构大拆解:这次不拼参数,拼“脑回路”

DeepSeek V3 刚发布的时候,大家都在喊“真香”,API 便宜得让人怀疑人生。结果 V4 的消息一出,GitHub 上的 Issue 区直接变成了“大型吃瓜现场”。

2026-03-02模型能力对比评测
58
DeepSeek v4 上线了?你的 AI 还要什么自行车

最近技术圈又炸锅了。

2026-03-02模型能力对比评测
59
DeepSeek v4 杀疯了?V3 还没捂热,新王这就登基了?

大家好,我是 147。

2026-03-02模型能力对比评测
上一页123457下一页