Seedance 2.0 的 @ 语法：用"导演的方式"喂素材给 AI

以前写 Prompt 是写作文，现在是发微信——你可以 @ 你的素材了。

Seedance 2.0 最让我眼前一亮的功能不是 1080p，不是 60 秒时长，而是它的多模态输入系统。你可以一次性丢进去最多 9 张图片、3 段视频（总共 15 秒以内）、3 段音频（总共 15 秒以内），然后在 Prompt 里用 @ 语法告诉模型怎么用这些素材。

这种交互方式，直接把"提示词工程"变成了"导演调度"。

@ 语法是什么？

假设你上传了一张角色照片（Image1）、一段参考视频（Video1）、一段背景音乐（Audio1），你的 Prompt 可以这样写：

@Image1 as the main character in the first frame, 
reference @Video1 for the camera pan movement, 
use @Audio1 as background music, 
the character walks through a neon-lit street at night.

模型会：

用 Image1 里的角色作为视频第一帧的主角
模仿 Video1 里的镜头平移方式
把 Audio1 当作背景音乐，视频节奏跟音乐拍子对齐
根据文字描述生成"霓虹灯街道夜间行走"的画面

一句 Prompt 调动了三种不同类型的素材。这在 1.5 Pro 时代是不可能的。

常用 @ 模式速查

| 你想做什么 | Prompt 写法 | |-----------|------------| | 指定首帧画面 | @Image1 as the first frame | | 指定尾帧画面 | @Image2 as the last frame | | 参考某个视频的运镜 | Reference @Video1 for camera movement | | 参考某个视频的动作编排 | Reference @Video1 for the fighting choreography | | 替换视频中的角色 | Replace the woman in @Video1 with @Image1 | | 延长一段视频 | Extend @Video1 by 5 seconds | | 用音频控制节奏 | Use @Audio1 for background music | | 合并多段视频 | Merge @Video1 and @Video2 with smooth transition |

实际有多好用？

试了几个场景。

场景一：角色一致性

以前做多镜头视频最头疼的就是角色换脸。镜头一切，主角的脸就变了。

Seedance 2.0 的解法很直接：你上传一张角色的三视图（正面、侧面、四分之三角度），然后在每个镜头的 Prompt 里都 @ 这张图。模型会锁定这张脸的特征，在不同镜头里保持一致。

实测下来，正脸到侧脸的一致性大约 85 分，比 1.5 Pro 好了一大截。但极端角度（比如仰拍、俯拍）偶尔还是会走样。

场景二：运镜克隆

拍了一段手持跟拍的参考视频（用手机随便录的），上传后写 Reference @Video1 for handheld tracking shot。生成出来的视频真的复制了那种手持晃动的感觉，连晃动的幅度和频率都差不多。

这比在 Prompt 里写 "handheld camera" 精确多了。文字描述只能给一个大方向，@ 参考视频能给一个精确的"模板"。

场景三：音乐节奏同步

上传了一段 EDM 音乐片段，Prompt 写 A dancer moving to the beat of @Audio1 in a dark club。生成出来的舞蹈动作确实在跟节拍。重拍的时候动作幅度大，弱拍的时候动作收敛。

不是 100% 踩点，但大约 70-80% 的节拍是对上的。对于社交媒体内容来说足够了。

限制和坑

总文件数上限 12 个：9 图 + 3 视频 + 3 音频 = 15 个？不，总上限是 12 个文件。你得在图片、视频、音频之间做取舍。
视频参考总时长 15 秒：3 段视频加起来不能超过 15 秒。如果你的参考视频是 20 秒的，得先自己裁剪。
音频参考总时长 15 秒：同上。
生成时长 4-15 秒：虽然官方预告说目标是 30-60 秒，但目前实际可用的生成时长是 4-15 秒。
@ 冲突：如果你 @ 了两个风格完全不同的参考视频，模型会困惑。尽量让参考素材之间风格一致。

这意味着什么？

@ 语法本质上是把"自然语言"和"素材引用"合并成了一种新的交互语言。

以前和 AI 沟通只能用文字，像是在打电话——你只能用嘴巴描述你想要什么。现在你可以边说边拿东西给它看，像是面对面开会——"就像这个视频里的运镜，但换成这张图里的角色，配上这段音乐。"

这个交互方式的变化，比分辨率从 720p 升到 1080p 更重要。