我扒了全网测评，阿里 Qwen-Image 到底能不能打？

AI 视频的热闹还没散，AI 生图这边又炸了一轮。

这次的主角是阿里的 Qwen-Image。准确说，是从 2025 年 8 月首发到 12 月底更新的 Qwen-Image-2512，以及围绕它长出来的一整个生态——图像编辑、分层生成、一图定制 LoRA，外加社区搞出来的上百个衍生模型。

我最近一直在看 Seedance 2.0 的测评，顺手也把 Qwen-Image 的相关资料过了一遍。发现一个很有意思的现象：视频模型这边是字节和快手在打，生图模型这边是阿里一家在收割——至少在开源社区里，Qwen-Image 的扩散速度非常快，衍生模型和工作流也长得很快。

（更稳妥的说法是：在 Hugging Face 的 Model tree 里，以 Qwen/Qwen-Image 为 base model 的 Adapters 就有 484 个，Finetunes 有 64 个，Quantizations 有 19 个——这些数字会随社区更新变化，但足以说明生态已经长成规模。）

这篇文章不做手把手教程，网上教程已经够多了。我想做的事跟之前写 Seedance 2.0 一样——把散落在不同平台、不同角度的评价汇总起来，拼出一个尽量完整的画面。

01 先说清楚：Qwen-Image 到底是什么

很多人把 Qwen-Image 当成一个普通的"文生图模型"，这个理解不太准确。

Qwen-Image 是一个 20B 参数的 MMDiT（多模态扩散 Transformer）图像基础模型，由阿里通义实验室开发，Apache 2.0 协议完全开源。它不只是能生成图片，还能精准编辑图片、渲染复杂文字、甚至从单张图片学会你的风格。（这句“20B”在官方博客与 GitHub README 都有明确写出。）

时间线梳理一下（以官方 GitHub README / Hugging Face Model Card 为准）：

2025.08.04：Qwen-Image 正式发布（官方博客日期）
2025.08.18：Qwen-Image-Edit 开源发布（GitHub News）
2025.09.22：Qwen-Image-Edit-2509 发布（GitHub News）
2025.12.16：Qwen-Image-i2L（Image-to-LoRA）发布（Hugging Face 博文日期）
2025.12.19：Qwen-Image-Layered 发布（GitHub News）
2025.12.23：Qwen-Image-Edit-2511 发布（GitHub News）
2025.12.31：Qwen-Image-2512 发布（GitHub News / HF Model Card）
2026.02.10：Qwen-Image-2.0 发布（GitHub News）

半年之内迭代了六七个版本。这个节奏，在开源社区里相当激进。

02 它最让人服气的地方：中文文字渲染

如果只说一个 Qwen-Image 的核心卖点，所有测评都指向同一件事——中文文字渲染。

这个事情为什么重要？因为在 Qwen-Image 之前，AI 生图领域有一个长期痛点：中文必乱码。你让 Midjourney 或 Stable Diffusion 在图片里写几个中文字，出来的大概率是火星文。英文好一点，但稍微长一点的句子也经常出错。

Qwen-Image 在这个问题上做到了什么水平？

这里我建议优先看官方技术报告里的 ChineseWord 基准（这是他们专门做的“单个中文字符渲染”评测）。报告把常用字分成三档难度：Level-1（3500 字）、Level-2（3000 字）、Level-3（1605 字）。

Level-1 准确率：Qwen-Image 97.29
Level-2 准确率：Qwen-Image 40.53
Level-3 准确率：Qwen-Image 6.48
Overall：58.30

这些数字的口径是“字符级渲染准确率”，不是“整张海报一段话都不出错”的那种口径；但至少说明它在“中文不乱码”这条赛道上，确实做到了第一梯队。

更实用的是 3D 场景文字融合——文字能正确贴合物体表面的曲率和光影变化。比如生成一个咖啡杯上印着"早安"两个字，字会跟着杯面弯曲，阴影会跟着光源走。这个能力对做海报、做电商产品图的人来说非常关键。

简单说：Qwen-Image 第一次让中文用户在 AI 生图里拿回了"母语优势"。以前做中文海报必须生成图之后再用 PS 叠文字，现在一步到位。

03 实测千问 APP：国产实用主义

2025 年 12 月，阿里把 Qwen-Image 满血版搬进了千问 APP，免费用，不限次数。

新浪科技做了一篇实测报道，标题很直接：《实测千问 App 生图、生视频功能：国产实用主义的突围》。

记者测了几个场景：

生图质量：整体生成效果清晰稳定，主体偏移和模糊问题明显减少。亚洲人像比以前自然得多，不再是那种一眼假的"AI 美颜脸"。

中文海报：一句话就能生成包含准确中文的商业海报，字体、排版、配色都到了可以直接拿去用的水平。报道用了"商用级别"这个评价。

图像编辑：上传一张图，用自然语言描述你想改什么——"把背景换成海边""给她换一件红色连衣裙""把文字改成'新春快乐'"——模型就能执行；多篇实测都强调它在人物一致性、中文改字这些传统“翻车点”上明显更稳。（这一段我删掉了“95%”这种很容易口径不一致、也很难在公开资料里严格核对的数字。）

多图融合：这是 Qwen-Image-Edit 独有的能力。你可以同时上传多张图，告诉模型"把这个人放到那个场景里"，它会处理透视、光照和边缘融合。

关于千问 APP 的增长速度，媒体报道很多，但不同文章口径不完全一致（公测时间、下载量统计口径也可能不同）。这里不写死具体日期和数字，只保留结论：它把生图/改图能力以“免费、低门槛”的方式推给了更大规模的人群，这对模型生态的扩散很关键。

04 开源社区：一个模型变出一整个生态

Qwen-Image 最有意思的不是模型本身，而是它在开源社区引发的连锁反应。

几个“能核对”的数据（会随时间变化，我都加上“截至日期”）：

GitHub Stars：截至 2026-02-11，QwenLM/Qwen-Image 为 7,298 stars
Hugging Face 月下载量：截至页面展示口径，Qwen/Qwen-Image Downloads last month 162,715；Qwen/Qwen-Image-2512 157,681
衍生模型规模：截至页面展示口径，Qwen/Qwen-Image 的 Model tree 中，Adapters 484、Finetunes 64、Quantizations 19

社区围绕 Qwen-Image 搞出来的东西，大致分几类：

真实感增强：Real-Qwen-Image-V2 是最火的一个，由开发者 wikeeyang 基于 Qwen-Image-2512 微调，专攻照片级真实感。它对亚洲人像做了专门优化——肤色更自然、五官更立体、光影更真实。在 Civitai 和 HuggingFace 上都有大量下载。

风格 LoRA：社区里已经有不少围绕 Qwen-Image 的 LoRA（比如偏写实、偏人像、偏特定画风的适配器）。这类“动态数字”（点赞数、收藏数）波动很快，我就不在文中写死了。

加速和量化：20B 级别的扩散模型用 BF16 跑起来对显存压力很大，社区的主流做法是用量化/Offload/蒸馏（例如 Lightning）来换取更低门槛的推理成本。具体“最低需要多少 GB 显存”会强依赖实现、分辨率、步数和 Offload 策略，这里不写死数字。

一图定制 LoRA（Qwen-Image-i2L）：Hugging Face 的介绍文章把它定义为 “Image-to-LoRA：输入一张图，直接输出 LoRA 权重”。更严谨地说，它的目标是把“传统要跑几小时的 LoRA 训练”压缩成一次前向生成（文章里也详细解释了训练路线和遇到的问题）。这条线的意义在于：把风格定制的门槛进一步打下去。

05 跟闭源巨头怎么比

一个绕不开的问题：Qwen-Image 跟 Midjourney、DALL-E 这些闭源产品比怎么样？

在“盲测/竞技场”这类维度上，最稳妥的引用方式不是抄一张随时会变的排行榜，而是引用官方可核对的口径。

在 Qwen/Qwen-Image-2512 的 Hugging Face Model Card 里，官方写得很明确：他们在 AI Arena 做了 10,000+ 轮盲测，结果显示 Qwen-Image-2512 是当时最强的开源模型，并且对闭源模型也“保持竞争力”。（这句话可直接在 Model Card 中核对。）

几个值得注意的点：

好消息：官方口径已经把它的定位说清楚了——Qwen-Image-2512 在 AI Arena 的 10,000+ 轮盲测里，达到了“开源最强、对闭源也有竞争力”的结果。对“想要一个能本地跑、能商用、还能做编辑工作流”的人来说，这是非常强的信号。

现实提醒：盲测/榜单不是圣旨。不同的 prompt 分布、评审口味、分辨率设置都会影响结果；而且很多模型在“默认审美”（光影、肤质、色彩）上的取向不同，很容易造成“同一句提示词，有人觉得 A 更真，有人觉得 B 更美”的分裂。

如果只做一个“够用的对比框架”，我会这样描述：

中文文字/排版类：Qwen-Image 的优势更稳定（技术报告与官方示例都在强调这一点）
海报/信息图/PPT 类：Qwen-Image 的能力更像“工具”，强调指令遵循和可编辑性
纯审美/艺术风格类：不少创作者仍会优先用 Midjourney 这类产品做“默认就很美”的出图

一句话总结：如果你要的是“默认就很惊艳”的图，很多人仍把 Midjourney 当标杆；如果你要的是“中文文字能用、编辑能用、工作流能落地”的图，Qwen-Image 是目前最强的开源选项之一。

06 它输的地方

不是所有对比 Qwen-Image 都赢。

有人做了一个可复现的 5-prompt A/B 测试（同 seed、同提示词、720×1280），对比 Qwen-Image-2512 和 Z-Image Turbo。结论并不是“谁碾压谁”，而更像“审美取向不同”：

指令遵循：Qwen 更偏“字面执行”，画面更“硬”；Z-Image Turbo 更偏“审美平滑”
文字渲染：两者都能渲染文字，但作者认为 Qwen 在特定字符串的精确性上更好
复杂画面：Qwen 更愿意往画面里塞信息密度；Z-Image Turbo 更愿意做取舍，构图更清爽

这类对比的价值在于：它提醒你“别迷信单一结论”，同样的 prompt 下，不同模型的“默认审美”会差很远。

另外从用户反馈来看，Qwen-Image 还有几个比较明确的不足：

手指和肢体细节：虽然比两年前进步巨大，但在复杂姿势下依然偶尔出现多指、关节扭曲的情况。这是所有扩散模型的通病，但 Qwen-Image 没有完全解决。

多人场景：两三个人以上的群像，人物之间的遮挡关系和空间位置有时候会乱。

图像理解：作为生成模型，Qwen-Image 在"看懂图片"这件事上不如专门的多模态理解模型。官方也承认这一点——性能"非常接近"顶级模型，但还有差距。

与顶级闭源模型的差距：在清晰度、锐度和“默认审美”上，开源模型往往更容易被挑剔（这也是为什么很多人会把“开源最强”理解为“性价比最强”，而不是“绝对最强”）。

07 一个被低估的能力：分层生成

如果说 Qwen-Image-2512 的升级是量变，那 Qwen-Image-Layered 就是一个质变的信号。

传统 AI 生图的输出是一张扁平的图片——所有元素烤在一起，想改一个地方就得重新生成整张图。这跟你用手机拍照一样，拍完了才发现背景不好看，只能重拍。

Qwen-Image-Layered 的输出不是一张图，而是一组 RGBA 图层——前景、中景、背景、文字分别在不同的图层上，像 Photoshop 的 PSD 文件一样。

这意味着你可以：

只换背景，人物和文字不动
只改文字颜色，其他一切不变
把前景人物拎出来放到另一张图里
调整图层的前后关系和透明度

对设计师来说，这解决了 AI 生图最大的痛点之一：可编辑性。以前用 AI 生成一张海报，后续调整全靠运气和重新生成。现在可以像操作 PS 文件一样精细调整。

ComfyUI 已经提供了 Layered 版本的原生工作流支持。

08 电商和设计师最关心的数据

聊完技术，说点实际的。

这部分我把“写死的时间/成本数字”删掉了：因为不同团队的熟练度、审美标准、素材复杂度差异太大，写成固定数字很容易误导。

但结论仍然成立：在 海报/详情页配图/背景替换/批量 A/B 素材 这些强需求场景里，Qwen-Image 的优势不在于“多惊艳”，而在于“把大量重复劳动变成可规模化的工作流”。

部署成本：

用千问 APP：媒体实测普遍提到“免费、低门槛”
用 API（ModelScope / 第三方推理）：按量付费，适合做服务集成
本地部署：显存和工程复杂度门槛更高，但换来隐私与可控性；社区已经有不少量化与 Offload 的方案

对中小电商和独立设计师来说，"免费用千问 APP"这一条就够了。对有技术能力的团队来说，本地部署意味着完全的数据隐私和无限量使用。

09 所以 Qwen-Image 到底能不能打？

综合全网各个角度的测评，我的判断：

能打。而且在特定领域已经是最能打的。

它做到同类最强的三个方向：

中文文字渲染——技术报告里 ChineseWord 基准的 Level-1 准确率 97.29，而且官方示例覆盖了多行排版、长文本、图文混排等场景
图像编辑精度——多篇实测认为在人物一致性、中文改字、背景替换上更稳（这里不写死“95%”）
开源生态的丰富度——Hugging Face 的 Model tree 里，以它为 base model 的适配/微调/量化已经是“数百规模”，社区 LoRA、量化版本、ComfyUI 工作流也一应俱全

它还有差距的两个方向：

纯视觉审美——跟 Midjourney v7 比"好不好看"，还是差一截。Midjourney 的色彩、构图、光影有一种经过精心调教的"杂志感"，Qwen-Image 更偏"准确"而非"惊艳"
与最强闭源模型的综合对比——官方口径是“AI Arena 10,000+ 轮盲测开源最强”，但这不等于它在所有审美维度都第一；你如果追求“默认就很惊艳”的画面，闭源模型和 Midjourney 依然有优势

但这里有一个很多人忽略的角度：Qwen-Image 是免费的、开源的、可本地跑的、可商用的。

Midjourney 需要订阅（按月/按年付费）。DALL·E 这类服务通常按量计费。闭源产品的共同点是：你很难完全控制数据隐私与模型可控性，也无法像开源一样自由微调和本地部署。

Qwen-Image 呢？千问 APP 免费用，代码 Apache 2.0 随便改，模型权重随便下；而且社区已经有不少量化与 Offload 方案，能把本地尝鲜门槛拉得更低。

当年 Linux 刚出来的时候，也没人觉得它能跟 Windows 打。但开源生态的力量在于：一个人做不到最好，十万个人一起做，迭代速度会碾压任何单一公司。

Qwen-Image 的生态飞轮一旦转起来（尤其是 LoRA、量化、工作流这些“工程侧”资产变多），开源在某些场景里就会越来越像“可用的生产工具”，而不仅是“能看但不好改的玩具”。

10 什么人应该现在就用起来

电商从业者：如果你还在花钱请设计师做产品图和海报，现在就去千问 APP 试一试。中文海报这个场景，Qwen-Image 已经到了"可以直接用"的水平。

独立设计师：把 Qwen-Image 加进你的 ComfyUI 工作流。用它生成初稿，用 Layered 版本输出分层文件，再用 PS 做精修。效率可以提升好几倍。

AI 创作者/开发者：关注 Qwen-Image-i2L 这个方向。"一张图生成 LoRA"意味着你可以快速复刻任何画风，做风格化的批量内容生产。

普通用户：千问 APP 免费用，上手门槛极低。想做个朋友圈九宫格、做个表情包、给文章配个图，直接对话就行。

暂时不用急的：如果你的核心需求是"生成艺术感极强的图片"或者"需要跟 Midjourney 审美对标"，可以再等等。Qwen-Image 在"美"这个维度上还需要追赶。

11 一点个人看法

2025 年的 AI 生图市场像极了 2024 年的 AI 视频市场——群雄混战，各有所长，没有一个模型能做到全面碾压。

但 Qwen-Image 走了一条跟别人不太一样的路：不追求"最惊艳"，追求"最能用"。中文渲染、精准编辑、开源生态、免费使用——每一项都指向同一个方向：让更多人用得起、用得上。

从结果看，这条路走对了。更稳妥的证据不是“全平台累计下载量”这种很难统一口径的数字，而是 Hugging Face 上可直接看到的 月下载量、Model tree 规模，以及 GitHub 的 Star 变化趋势——这些都说明开发者和创作者确实在用脚投票。

不过，测评归测评，效果还是要自己试才知道。打开千问 APP，输入你自己的需求，跑几张出来，比读一百篇文章都管用。

别人的测评是地图，你自己的体验才是路。

本文信息来源（可核对版本）：Qwen 官方博客（Qwen-Image，2025.08.04）、Qwen-Image GitHub README（含各版本 News 与发布日期）、Qwen-Image Technical Report（PDF，含 ChineseWord/LongText-Bench 等表格数据）、Hugging Face Model Card（Qwen-Image / Qwen-Image-2512，含月下载量与 Model tree 规模）、极客公园/腾讯新闻关于千问 APP 的实测报道、DEV.to 的 5-prompt A/B 对比文章（Qwen-Image-2512 vs Z-Image Turbo）。