我扒了全网测评,阿里 Qwen-Image 到底能不能打?
AI 视频的热闹还没散,AI 生图这边又炸了一轮。
这次的主角是阿里的 Qwen-Image。准确说,是从 2025 年 8 月首发到 12 月底更新的 Qwen-Image-2512,以及围绕它长出来的一整个生态——图像编辑、分层生成、一图定制 LoRA,外加社区搞出来的上百个衍生模型。
我最近一直在看 Seedance 2.0 的测评,顺手也把 Qwen-Image 的相关资料过了一遍。发现一个很有意思的现象:视频模型这边是字节和快手在打,生图模型这边是阿里一家在收割——至少在开源社区里,Qwen-Image 的扩散速度非常快,衍生模型和工作流也长得很快。
(更稳妥的说法是:在 Hugging Face 的 Model tree 里,以 Qwen/Qwen-Image 为 base model 的 Adapters 就有 484 个,Finetunes 有 64 个,Quantizations 有 19 个——这些数字会随社区更新变化,但足以说明生态已经长成规模。)
这篇文章不做手把手教程,网上教程已经够多了。我想做的事跟之前写 Seedance 2.0 一样——把散落在不同平台、不同角度的评价汇总起来,拼出一个尽量完整的画面。
01 先说清楚:Qwen-Image 到底是什么
很多人把 Qwen-Image 当成一个普通的"文生图模型",这个理解不太准确。
Qwen-Image 是一个 20B 参数的 MMDiT(多模态扩散 Transformer)图像基础模型,由阿里通义实验室开发,Apache 2.0 协议完全开源。它不只是能生成图片,还能精准编辑图片、渲染复杂文字、甚至从单张图片学会你的风格。(这句“20B”在官方博客与 GitHub README 都有明确写出。)
时间线梳理一下(以官方 GitHub README / Hugging Face Model Card 为准):
- 2025.08.04:Qwen-Image 正式发布(官方博客日期)
- 2025.08.18:Qwen-Image-Edit 开源发布(GitHub News)
- 2025.09.22:Qwen-Image-Edit-2509 发布(GitHub News)
- 2025.12.16:Qwen-Image-i2L(Image-to-LoRA)发布(Hugging Face 博文日期)
- 2025.12.19:Qwen-Image-Layered 发布(GitHub News)
- 2025.12.23:Qwen-Image-Edit-2511 发布(GitHub News)
- 2025.12.31:Qwen-Image-2512 发布(GitHub News / HF Model Card)
- 2026.02.10:Qwen-Image-2.0 发布(GitHub News)
半年之内迭代了六七个版本。这个节奏,在开源社区里相当激进。
02 它最让人服气的地方:中文文字渲染
如果只说一个 Qwen-Image 的核心卖点,所有测评都指向同一件事——中文文字渲染。
这个事情为什么重要?因为在 Qwen-Image 之前,AI 生图领域有一个长期痛点:中文必乱码。你让 Midjourney 或 Stable Diffusion 在图片里写几个中文字,出来的大概率是火星文。英文好一点,但稍微长一点的句子也经常出错。
Qwen-Image 在这个问题上做到了什么水平?
这里我建议优先看官方技术报告里的 ChineseWord 基准(这是他们专门做的“单个中文字符渲染”评测)。报告把常用字分成三档难度:Level-1(3500 字)、Level-2(3000 字)、Level-3(1605 字)。
- Level-1 准确率:Qwen-Image 97.29
- Level-2 准确率:Qwen-Image 40.53
- Level-3 准确率:Qwen-Image 6.48
- Overall:58.30
这些数字的口径是“字符级渲染准确率”,不是“整张海报一段话都不出错”的那种口径;但至少说明它在“中文不乱码”这条赛道上,确实做到了第一梯队。
更实用的是 3D 场景文字融合——文字能正确贴合物体表面的曲率和光影变化。比如生成一个咖啡杯上印着"早安"两个字,字会跟着杯面弯曲,阴影会跟着光源走。这个能力对做海报、做电商产品图的人来说非常关键。
简单说:Qwen-Image 第一次让中文用户在 AI 生图里拿回了"母语优势"。以前做中文海报必须生成图之后再用 PS 叠文字,现在一步到位。
03 实测千问 APP:国产实用主义
2025 年 12 月,阿里把 Qwen-Image 满血版搬进了千问 APP,免费用,不限次数。
新浪科技做了一篇实测报道,标题很直接:《实测千问 App 生图、生视频功能:国产实用主义的突围》。
记者测了几个场景:
生图质量:整体生成效果清晰稳定,主体偏移和模糊问题明显减少。亚洲人像比以前自然得多,不再是那种一眼假的"AI 美颜脸"。
中文海报:一句话就能生成包含准确中文的商业海报,字体、排版、配色都到了可以直接拿去用的水平。报道用了"商用级别"这个评价。
图像编辑:上传一张图,用自然语言描述你想改什么——"把背景换成海边""给她换一件红色连衣裙""把文字改成'新春快乐'"——模型就能执行;多篇实测都强调它在人物一致性、中文改字这些传统“翻车点”上明显更稳。(这一段我删掉了“95%”这种很容易口径不一致、也很难在公开资料里严格核对的数字。)
多图融合:这是 Qwen-Image-Edit 独有的能力。你可以同时上传多张图,告诉模型"把这个人放到那个场景里",它会处理透视、光照和边缘融合。
关于千问 APP 的增长速度,媒体报道很多,但不同文章口径不完全一致(公测时间、下载量统计口径也可能不同)。这里不写死具体日期和数字,只保留结论:它把生图/改图能力以“免费、低门槛”的方式推给了更大规模的人群,这对模型生态的扩散很关键。
04 开源社区:一个模型变出一整个生态
Qwen-Image 最有意思的不是模型本身,而是它在开源社区引发的连锁反应。
几个“能核对”的数据(会随时间变化,我都加上“截至日期”):
- GitHub Stars:截至 2026-02-11,
QwenLM/Qwen-Image为 7,298 stars - Hugging Face 月下载量:截至页面展示口径,
Qwen/Qwen-ImageDownloads last month 162,715;Qwen/Qwen-Image-2512157,681 - 衍生模型规模:截至页面展示口径,
Qwen/Qwen-Image的 Model tree 中,Adapters 484、Finetunes 64、Quantizations 19
社区围绕 Qwen-Image 搞出来的东西,大致分几类:
真实感增强:Real-Qwen-Image-V2 是最火的一个,由开发者 wikeeyang 基于 Qwen-Image-2512 微调,专攻照片级真实感。它对亚洲人像做了专门优化——肤色更自然、五官更立体、光影更真实。在 Civitai 和 HuggingFace 上都有大量下载。
风格 LoRA:社区里已经有不少围绕 Qwen-Image 的 LoRA(比如偏写实、偏人像、偏特定画风的适配器)。这类“动态数字”(点赞数、收藏数)波动很快,我就不在文中写死了。
加速和量化:20B 级别的扩散模型用 BF16 跑起来对显存压力很大,社区的主流做法是用量化/Offload/蒸馏(例如 Lightning)来换取更低门槛的推理成本。具体“最低需要多少 GB 显存”会强依赖实现、分辨率、步数和 Offload 策略,这里不写死数字。
一图定制 LoRA(Qwen-Image-i2L):Hugging Face 的介绍文章把它定义为 “Image-to-LoRA:输入一张图,直接输出 LoRA 权重”。更严谨地说,它的目标是把“传统要跑几小时的 LoRA 训练”压缩成一次前向生成(文章里也详细解释了训练路线和遇到的问题)。这条线的意义在于:把风格定制的门槛进一步打下去。
05 跟闭源巨头怎么比
一个绕不开的问题:Qwen-Image 跟 Midjourney、DALL-E 这些闭源产品比怎么样?
在“盲测/竞技场”这类维度上,最稳妥的引用方式不是抄一张随时会变的排行榜,而是引用官方可核对的口径。
在 Qwen/Qwen-Image-2512 的 Hugging Face Model Card 里,官方写得很明确:他们在 AI Arena 做了 10,000+ 轮盲测,结果显示 Qwen-Image-2512 是当时最强的开源模型,并且对闭源模型也“保持竞争力”。(这句话可直接在 Model Card 中核对。)
几个值得注意的点:
好消息:官方口径已经把它的定位说清楚了——Qwen-Image-2512 在 AI Arena 的 10,000+ 轮盲测里,达到了“开源最强、对闭源也有竞争力”的结果。对“想要一个能本地跑、能商用、还能做编辑工作流”的人来说,这是非常强的信号。
现实提醒:盲测/榜单不是圣旨。不同的 prompt 分布、评审口味、分辨率设置都会影响结果;而且很多模型在“默认审美”(光影、肤质、色彩)上的取向不同,很容易造成“同一句提示词,有人觉得 A 更真,有人觉得 B 更美”的分裂。
如果只做一个“够用的对比框架”,我会这样描述:
- 中文文字/排版类:Qwen-Image 的优势更稳定(技术报告与官方示例都在强调这一点)
- 海报/信息图/PPT 类:Qwen-Image 的能力更像“工具”,强调指令遵循和可编辑性
- 纯审美/艺术风格类:不少创作者仍会优先用 Midjourney 这类产品做“默认就很美”的出图
一句话总结:如果你要的是“默认就很惊艳”的图,很多人仍把 Midjourney 当标杆;如果你要的是“中文文字能用、编辑能用、工作流能落地”的图,Qwen-Image 是目前最强的开源选项之一。
06 它输的地方
不是所有对比 Qwen-Image 都赢。
有人做了一个可复现的 5-prompt A/B 测试(同 seed、同提示词、720×1280),对比 Qwen-Image-2512 和 Z-Image Turbo。结论并不是“谁碾压谁”,而更像“审美取向不同”:
- 指令遵循:Qwen 更偏“字面执行”,画面更“硬”;Z-Image Turbo 更偏“审美平滑”
- 文字渲染:两者都能渲染文字,但作者认为 Qwen 在特定字符串的精确性上更好
- 复杂画面:Qwen 更愿意往画面里塞信息密度;Z-Image Turbo 更愿意做取舍,构图更清爽
这类对比的价值在于:它提醒你“别迷信单一结论”,同样的 prompt 下,不同模型的“默认审美”会差很远。
另外从用户反馈来看,Qwen-Image 还有几个比较明确的不足:
手指和肢体细节:虽然比两年前进步巨大,但在复杂姿势下依然偶尔出现多指、关节扭曲的情况。这是所有扩散模型的通病,但 Qwen-Image 没有完全解决。
多人场景:两三个人以上的群像,人物之间的遮挡关系和空间位置有时候会乱。
图像理解:作为生成模型,Qwen-Image 在"看懂图片"这件事上不如专门的多模态理解模型。官方也承认这一点——性能"非常接近"顶级模型,但还有差距。
与顶级闭源模型的差距:在清晰度、锐度和“默认审美”上,开源模型往往更容易被挑剔(这也是为什么很多人会把“开源最强”理解为“性价比最强”,而不是“绝对最强”)。
07 一个被低估的能力:分层生成
如果说 Qwen-Image-2512 的升级是量变,那 Qwen-Image-Layered 就是一个质变的信号。
传统 AI 生图的输出是一张扁平的图片——所有元素烤在一起,想改一个地方就得重新生成整张图。这跟你用手机拍照一样,拍完了才发现背景不好看,只能重拍。
Qwen-Image-Layered 的输出不是一张图,而是一组 RGBA 图层——前景、中景、背景、文字分别在不同的图层上,像 Photoshop 的 PSD 文件一样。
这意味着你可以:
- 只换背景,人物和文字不动
- 只改文字颜色,其他一切不变
- 把前景人物拎出来放到另一张图里
- 调整图层的前后关系和透明度
对设计师来说,这解决了 AI 生图最大的痛点之一:可编辑性。以前用 AI 生成一张海报,后续调整全靠运气和重新生成。现在可以像操作 PS 文件一样精细调整。
ComfyUI 已经提供了 Layered 版本的原生工作流支持。
08 电商和设计师最关心的数据
聊完技术,说点实际的。
这部分我把“写死的时间/成本数字”删掉了:因为不同团队的熟练度、审美标准、素材复杂度差异太大,写成固定数字很容易误导。
但结论仍然成立:在 海报/详情页配图/背景替换/批量 A/B 素材 这些强需求场景里,Qwen-Image 的优势不在于“多惊艳”,而在于“把大量重复劳动变成可规模化的工作流”。
部署成本:
- 用千问 APP:媒体实测普遍提到“免费、低门槛”
- 用 API(ModelScope / 第三方推理):按量付费,适合做服务集成
- 本地部署:显存和工程复杂度门槛更高,但换来隐私与可控性;社区已经有不少量化与 Offload 的方案
对中小电商和独立设计师来说,"免费用千问 APP"这一条就够了。对有技术能力的团队来说,本地部署意味着完全的数据隐私和无限量使用。
09 所以 Qwen-Image 到底能不能打?
综合全网各个角度的测评,我的判断:
能打。而且在特定领域已经是最能打的。
它做到同类最强的三个方向:
- 中文文字渲染——技术报告里 ChineseWord 基准的 Level-1 准确率 97.29,而且官方示例覆盖了多行排版、长文本、图文混排等场景
- 图像编辑精度——多篇实测认为在人物一致性、中文改字、背景替换上更稳(这里不写死“95%”)
- 开源生态的丰富度——Hugging Face 的 Model tree 里,以它为 base model 的适配/微调/量化已经是“数百规模”,社区 LoRA、量化版本、ComfyUI 工作流也一应俱全
它还有差距的两个方向:
- 纯视觉审美——跟 Midjourney v7 比"好不好看",还是差一截。Midjourney 的色彩、构图、光影有一种经过精心调教的"杂志感",Qwen-Image 更偏"准确"而非"惊艳"
- 与最强闭源模型的综合对比——官方口径是“AI Arena 10,000+ 轮盲测开源最强”,但这不等于它在所有审美维度都第一;你如果追求“默认就很惊艳”的画面,闭源模型和 Midjourney 依然有优势
但这里有一个很多人忽略的角度:Qwen-Image 是免费的、开源的、可本地跑的、可商用的。
Midjourney 需要订阅(按月/按年付费)。DALL·E 这类服务通常按量计费。闭源产品的共同点是:你很难完全控制数据隐私与模型可控性,也无法像开源一样自由微调和本地部署。
Qwen-Image 呢?千问 APP 免费用,代码 Apache 2.0 随便改,模型权重随便下;而且社区已经有不少量化与 Offload 方案,能把本地尝鲜门槛拉得更低。
当年 Linux 刚出来的时候,也没人觉得它能跟 Windows 打。但开源生态的力量在于:一个人做不到最好,十万个人一起做,迭代速度会碾压任何单一公司。
Qwen-Image 的生态飞轮一旦转起来(尤其是 LoRA、量化、工作流这些“工程侧”资产变多),开源在某些场景里就会越来越像“可用的生产工具”,而不仅是“能看但不好改的玩具”。
10 什么人应该现在就用起来
电商从业者:如果你还在花钱请设计师做产品图和海报,现在就去千问 APP 试一试。中文海报这个场景,Qwen-Image 已经到了"可以直接用"的水平。
独立设计师:把 Qwen-Image 加进你的 ComfyUI 工作流。用它生成初稿,用 Layered 版本输出分层文件,再用 PS 做精修。效率可以提升好几倍。
AI 创作者/开发者:关注 Qwen-Image-i2L 这个方向。"一张图生成 LoRA"意味着你可以快速复刻任何画风,做风格化的批量内容生产。
普通用户:千问 APP 免费用,上手门槛极低。想做个朋友圈九宫格、做个表情包、给文章配个图,直接对话就行。
暂时不用急的:如果你的核心需求是"生成艺术感极强的图片"或者"需要跟 Midjourney 审美对标",可以再等等。Qwen-Image 在"美"这个维度上还需要追赶。
11 一点个人看法
2025 年的 AI 生图市场像极了 2024 年的 AI 视频市场——群雄混战,各有所长,没有一个模型能做到全面碾压。
但 Qwen-Image 走了一条跟别人不太一样的路:不追求"最惊艳",追求"最能用"。中文渲染、精准编辑、开源生态、免费使用——每一项都指向同一个方向:让更多人用得起、用得上。
从结果看,这条路走对了。更稳妥的证据不是“全平台累计下载量”这种很难统一口径的数字,而是 Hugging Face 上可直接看到的 月下载量、Model tree 规模,以及 GitHub 的 Star 变化趋势——这些都说明开发者和创作者确实在用脚投票。
不过,测评归测评,效果还是要自己试才知道。打开千问 APP,输入你自己的需求,跑几张出来,比读一百篇文章都管用。
别人的测评是地图,你自己的体验才是路。
本文信息来源(可核对版本):Qwen 官方博客(Qwen-Image,2025.08.04)、Qwen-Image GitHub README(含各版本 News 与发布日期)、Qwen-Image Technical Report(PDF,含 ChineseWord/LongText-Bench 等表格数据)、Hugging Face Model Card(Qwen-Image / Qwen-Image-2512,含月下载量与 Model tree 规模)、极客公园/腾讯新闻关于千问 APP 的实测报道、DEV.to 的 5-prompt A/B 对比文章(Qwen-Image-2512 vs Z-Image Turbo)。