字节悄悄放了个大招：AI 生成的视频，终于会"说话"了

上周帮朋友做一个产品宣传视频，他让我用 AI 生成。

我用 Kling 跑了一版，画面挺好看的，一个女生拿着产品对着镜头微笑。朋友看完说：不错，但是能不能让她开口介绍一下产品？

我说，不行，这是哑巴。

他愣了一下：啥意思？

我说，现在的 AI 视频模型，绝大多数生成出来都是无声的。你要配音的话，得另外找一个语音合成工具生成一段音频，然后在剪映里手动对上嘴型。一个 5 秒的视频，光对口型就得折腾十几分钟。

朋友沉默了。

然后我试了一下字节跳动新出的 Seedance 1.5 Pro。

同样的场景，我在提示词里加了一句台词：She smiles and says "This product changed my morning routine."

生成出来的视频里，女生的嘴巴真的在说这句话，口型对得上，声音也是同步的。

朋友看完：就这个，就用这个。

01 它和别的视频模型有什么不一样？

一句话：声音和画面是一起生成的，不是后贴的。

以前的视频模型，工作方式是这样的：

第一步：画画（生成视频帧）第二步：配音（用另一个模型生成音频）第三步：对齐（把声音和画面手动或自动对上）

Seedance 1.5 Pro 不一样。它内部有两条并行的"生产线"，一条管画面，一条管声音，两条线共享同一份"草稿纸"。

这意味着，当它决定画一个人张嘴说"Hello"的时候，声音那边同时在生成"Hello"的发音。不是先画后配，而是同时发生。

结果就是：口型是准的，脚步声是踩在点上的，玻璃碎的声音和画面里玻璃碎的瞬间是同一帧。

02 实际体验怎么样？

说几个我自己试过的场景。

场景一：人物说话

提示词写了一句英文台词，生成出来的口型匹配度大概有 85-90 分。简单句子几乎完美。长句子偶尔会有嘴巴多动了半秒的情况，但整体看下来很自然。

中文台词也试了。能用，但精度比英语差一档。短句（三五个字）没问题，长段独白的话口型会有些含糊。

场景二：环境音

这个是意外惊喜。

我写了一个"雨夜街道，脚步声"的提示词，生成出来的视频里，真的有雨声和脚步声，而且脚步声的节奏跟画面里人走路的步频是对上的。

以前做这种效果，得去找免版权的雨声音效，找脚步声音效，然后在剪辑软件里一帧一帧对。现在一步搞定。

场景三：产品旋转展示

给了一张产品的静态图，用它的"图生视频"（Image-to-Video）功能，让产品在画面里慢慢旋转。不需要 3D 建模，不需要旋转台拍摄，一张照片就够了。

03 它不擅长什么？

说完好的，说不好的。

画质不是最顶的。 目前最高只支持 720p。如果你要在大屏幕上播放，或者做需要放大看细节的内容，会觉得有点糊。Kling 和 Runway 在纯画质上还是更强。

复杂动作容易翻车。 走路、说话、转头这些日常动作做得不错。但如果你让人物跳舞、打拳、做瑜伽，肢体可能会出现不自然的扭曲。

没有负面提示词。 用过 Stable Diffusion 的朋友习惯写一堆"不要什么"。在 Seedance 这里，负面提示词是完全无效的。你只能告诉它"要什么"，不能告诉它"不要什么"。

04 价格贵吗？

不贵。至少在目前的视频模型里算便宜的。

通过 fal.ai 平台调用，一个 5 秒的 720p 视频（带声音）大约 1.9 元人民币（$0.26）。

如果只是调试阶段，用 480p 的话，只要 0.9 元。

做个对比：

模型	5秒视频价格
Seedance 1.5 Pro (720p)	~1.9 元
Kling 2.6 Pro	~3-3.5 元
Runway Gen-4.5	~3.5 元+

对于做短视频、做营销内容的人来说，Seedance 的性价比很突出。省掉了配音和音效的成本，还省了剪辑对齐的时间。

05 适合谁用？

说具体的场景。

做短剧/段子的：角色需要说台词，需要有环境音效，Seedance 一步到位。以前要剪辑+配音+对齐，现在一个提示词搞定。

做产品展示的：一张产品图 → 旋转展示视频。电商详情页、朋友圈广告都能用。

做口播/数字人的：给一张人物正面照，写好台词，生成出来就是一个会说话的数字人视频。

不适合谁？ 追求 4K 极致画质的、做长视频（超过 12 秒）的、需要复杂动作编排的。这些场景目前其他工具更合适。

06 怎么写好提示词？

这是很多人关心的。Seedance 的提示词写法和图片生成模型完全不同。

记住一个原则：你是导演，不是画家。

不要堆砌形容词（什么"超高清、绝美、大师作品"统统没用）。

要像写剧本一样，包含四个要素：

谁在做什么（动作）
他/她在说什么（台词，用引号括起来）
背景里有什么声音（环境音）
什么风格（电影感、动画感等）

举个例子：

❌ 烂提示词：

Beautiful girl, studio lighting, 8K, masterpiece

✅ 好提示词：

A barista pours latte art into a ceramic cup, steam rising. She says "One vanilla latte, enjoy your day." Cafe background music, coffee machine hissing. Warm morning light, handheld camera.

前者给你一个漂亮但呆滞的画面。后者给你一段有声有色的小故事。

07 最后说两句

AI 视频这个赛道，2025 年大家比的是"谁画得好看"。2026 年开始，比的是"谁更像个导演"。

Seedance 1.5 Pro 不是画质最好的，但它是第一个让我觉得"这个视频可以直接用，不需要再开剪映折腾"的模型。

声音和画面本来就不该分开做。这个道理很简单，但做到的人不多。

字节做到了。

如果你想试试，可以直接去 fal.ai 注册一个账号，搜索 Seedance 1.5 Pro，新用户有免费额度。也可以去字节官方的 seed.bytedance.com 体验。