一个 Prompt 拍出蒙太奇：Seedance 多镜头叙事实战

大多数视频模型一次只能生成一个镜头。Seedance 想一口气给你拍一整场戏。

"多镜头"到底是什么意思？

先解释一下，因为很多人把"多镜头"和"长视频"搞混了。

长视频：一个固定机位拍 30 秒。机位不变，只是时间长。
多镜头：5 秒内切了三个机位。先是远景，切到中景，再切到特写。这是电影语言里的"蒙太奇"。

Seedance 1.5 Pro 的特色是后者。它在 4-12 秒的生成时间内，能理解并执行镜头切换指令。

这个能力从 Seedance 1.0 就有了。1.0 的技术报告明确写到，它在训练时就用了"多镜头数据格式"——每个镜头有自己的描述文字，按时间顺序排列。模型看过这种数据，自然就学会了镜头切换。

怎么写多镜头 Prompt？

核心技巧是用逗号分隔不同镜头的描述，按时间顺序排列。

两镜头切换

Wide shot of a girl sitting at a piano in an empty concert hall,
then close-up of her fingers pressing the keys as she begins to play.

这个 Prompt 告诉模型：先是全景，然后切到手部特写。在 5-8 秒的视频里，大约前 3 秒是全景，后面切到特写。

三镜头叙事

A detective enters a dimly lit room and looks around,
he walks to the desk and picks up a photograph,
close-up of the photograph showing a woman's face.

侦探进门（全景）→ 走到桌前拿照片（中景）→ 照片特写。

实际效果和踩坑

成功率：两个镜头的切换成功率挺高，大约 70-80% 的情况下模型能正确执行。三个镜头的成功率降到 50% 左右。超过三个镜头基本不靠谱，模型会把后面的镜头描述当成画面细节来理解，而不是当成新镜头。

人物一致性：这是最大的问题。镜头一切，人物的脸可能就变了。模型没有像 Kling Reference-to-Video 那样的显式 ID 保持机制。如果你的 Prompt 里没有对人物外貌做详细描述，每次切镜头都可能换一张脸。

缓解办法：在每个镜头描述里都重复人物特征。

A tall man with gray beard wearing a black coat enters the room,
the gray-bearded man in black coat walks to the window,
close-up of the gray-bearded man's face looking outside thoughtfully.

每个分句都提到"gray-bearded man in black coat"，模型就更容易保持人物一致性。虽然读起来啰嗦，但有效。

镜头运动：Seedance 对镜头运动的支持比较好。pan left, zoom in, tracking shot, handheld camera 这些指令都能识别。但一定不要在一个镜头里叠加多种运动。"pan left while zooming in and tilting down"这种写法，模型很可能忽略其中一两个。一个镜头一种运动最保险。

和手动拼接相比

在 Seedance 之前，做多镜头视频的流程是：

分别生成每个镜头的视频
用 FFmpeg 或剪映拼接
手动加转场
调整节奏

用 Seedance 做多镜头的优势是自然过渡。模型生成的镜头切换不是硬切或者加一个"白闪"转场，而是一种更接近剪辑师直觉的切换方式。有时候它会用一个微妙的运动来过渡，比如从全景慢慢推近，然后在某一帧"跳"到特写，整个过程看起来很自然。

劣势是不可控。你不能指定"第 3.2 秒切到第二个镜头"。模型自己决定什么时候切，你只能大致控制"先做这个，再做那个"。

适合什么场景？

短剧/段子：15 秒以内的叙事段落，两三个镜头的切换就够了。
产品展示：先展示全貌，再切到细节特写。
广告片头：快速的镜头切换建立氛围。

不适合：

长叙事：超过 12 秒的情节用单次生成搞不定，还是得分段生成+拼接。
严格分镜：如果导演已经画了精确的分镜脚本，每个镜头时长和构图都有要求，Seedance 的自动切换太随机了。

总结

多镜头能力让 Seedance 从"生成素材"向"生成内容"迈了一步。

以前的视频模型给你的是砖头，你得自己搬砖砌墙。Seedance 试着给你一面预制墙——不完美，但骨架在那里了。对于快速出内容的人来说，这个"预制墙"能省不少事。