8 张参考图做一张封面:Seedream 4.5 多图组合实战
一张图做参考让 AI 生成新图,大部分模型都能做。但同时给 8 张参考图,每张里提取不同的元素,融合到一张新图里——这件事的难度完全不一样。
Seedream 4.5 把"多图组合"列为核心能力之一。我把官方案例和用户实测拆开看了看,这个功能到底能用到什么程度。
01 先说原理:它怎么处理多张参考图
你上传多张图的时候,模型需要做几件事:
- 分别理解每张图里有什么
- 根据你的指令,确定每张图里要提取哪个元素
- 把提取出来的元素放到同一个画面里
- 处理好元素之间的空间关系、光影关系、风格统一
这四步每一步都可能出错。模型可能认错了主体,可能提取了错误的元素,可能融合时光影不统一。官方说 4.5 在"精准识别并稳定锁定主体"方面做了优化,但"精准"在多大程度上成立,要看具体案例。
02 案例一:8 张参考图做故事书封面
这是量子位实测里最引人注目的案例。
记者上传了 8 张参考图,包含不同的角色形象、场景元素和风格参考。配套的指令大意是:
童话故事书封面——小女孩与小狐狸站在发光森林小屋前,月亮巨大而梦幻,星尘飘浮,萤火虫的光点亮草地,小白花细致点缀,雾气营造柔和深度,古铜色童话边框包围整个场景,蓝紫与暖金色调对撞,角色面部特征保持原图一致。
注意这条指令的结构:先说主题(童话故事书封面),再说主体(小女孩和小狐狸的位置和动作),然后逐项列出环境元素(月亮、星尘、萤火虫、花、雾气),接着是装饰元素(边框),最后是色调和约束(色调+人脸一致性)。
最终结果把 8 张图里的元素都找到了,拼到了一起,色调和光影的融合度不错。角色的脸没崩,构图有故事感。
这是官方精选的成功案例。但有一个信息差需要指出:这种复杂的多图组合指令,很可能不是一次生成就出来的。实际使用中,你可能要跑 5-10 次才能得到一个满意的结果。那 200 张免费额度,做几个复杂的多图组合就能消耗掉大半。
03 案例二:多角色大合照
另一种常见需求是群像——把好几个不同角色放在同一张照片里。
官方演示里,多个独立的角色参考图被融合成了一张"大合照"。每个角色保持了各自的外形特征,合照里的站位、身高比例、视线方向看起来是合理的。
但群像场景有一个已知的难点:遮挡关系。当三个以上的人物站在一起,前后重叠的部分怎么处理?前面人的手挡住了后面人的衣服,阴影投在谁身上?
从用户反馈来看,2-3 个角色的合照成功率比较高。超过 5 个角色时,位置错乱和遮挡穿帮的概率明显上升。这跟生成模型处理空间关系的底层能力有关,不是靠提示词能完全解决的。
04 案例三:一张图出六种比例
反过来的需求也有意思:从一张参考图出发,生成同一画面的六种不同比例版本(1:1、2:3、4:3、16:9、1:2、9:16)。
这个功能的价值在于运营和投放场景。同一个活动素材,微博用 16:9,小红书用 3:4,朋友圈用 1:1,抖音用 9:16。以前要让设计师分别调整构图,每个比例重新排一遍。
Seedream 4.5 做这件事的方式不是简单裁切,而是重新调整构图——竖版的时候主体居中上移,横版的时候两侧留更多背景,正方形的时候做对称处理。从官方案例看,六个版本的风格和核心元素是一致的,只是构图策略不同。
这是多图功能里商业价值最直接的一个应用。不过同样,它的稳定性取决于原图的复杂度。元素越少、构图越简单的原图,多比例适配的效果越好。
05 案例四:创意变体——一张篮球图变出四种球
给一张篮球创意图(球体内部是篮球场场景),让模型分别生成足球、排球、高尔夫球、网球对应的创意图。
这不是简单的"换个球皮"。每种球的表面材质不同(足球的黑白块、排球的拼接线、网球的绒毛),球内的"比赛场地"也完全不同(足球场、排球场、高尔夫球场、网球场)。模型需要在保持创意构思不变的前提下,同时替换材质和内容。
官方案例里,四种球体的材质纹理确实各有特色,球内场地的结构也辨识度够高。这种"保持创意 DNA 不变、换细节参数"的生成方式,在广告公司做系列创意的时候很有用。
06 多图组合的写指令要点
从官方 Prompt Guide 和多个实测反馈里,提炼出几条多图组合的指令原则:
给每张图分配角色。"图 1 的角色穿图 2 的衣服""用图 3 的风格画图 1 和图 2 的人物"。每张参考图做什么用,要在指令里写清楚。
主体描述要具体。不要说"把图里的元素组合起来",这太模糊了。说"以图 1 的女孩和图 3 的狐狸为主角,站在图 5 的森林小屋前,画面整体采用图 7 的色调"。
控制参考图数量。官方支持多图输入,但参考图越多,模型需要协调的变量越多,失控的概率越高。如果不是真的需要 8 张参考,3-4 张通常更容易得到满意的结果。
生成多张用触发词。想一次性生成多张图,在指令里加"a series of""a set of"或者直接写"生成 X 张"。单次最多支持 15 张,但生成数量越多,每张的质量通常越不稳定。
参考来源:
- Seedream 4.5 官方介绍页:https://seed.bytedance.com/zh/seedream4_5
- 量子位实测(知乎):https://zhuanlan.zhihu.com/p/1981098969254863874
- Seedream 4.0-4.5 Prompt Guide(官方提示词指南):https://docs.byteplus.com/zh-CN/docs/ModelArk/1829186
- FelloAI 排名对比:https://felloai.com/new-chinese-model-seedream-4-5-is-challenging-nano-banana-pro-and-gpt-in-ai-image-quality/