原生唇形同步与环境音：Seedance 的音频到底做到了什么程度

"AI 视频能说话了"这个卖点听上去很酷，但具体好用到什么程度？踩了哪些坑？

唇形同步：语言和方言的差距

Seedance 1.5 Pro 官方宣称支持多语言和方言的唇形同步。实测下来，英语效果最好。这不奇怪，训练数据里英语肯定是大头。

英语场景下，简单的句子（比如 "Hello, how are you?"）口型几乎完美。长句子或者语速快的台词，偶尔会出现"嘴巴动但声音已经停了"的情况——尾部多出来半秒左右的口型残影。

中文场景下，效果可以打个七八分。声母韵母的口型大体准确，但遇到翘舌音（zh/ch/sh）和平舌音（z/c/s）的区分时，口型基本是混在一起的。如果你不是特别认真去看嘴巴，感觉还行；但如果你做的是教学视频或者口播，这个精度可能不够。

日语和韩语试了一下，比中文还差一些。元音的口型还行，辅音部分经常看不出区别。

实用建议：如果你需要高精度口型，目前首选英语。中文短句子还可以，长段独白就要降低预期了。

Seedance 的环境音（Foley）是被低估的一个能力。

当你写 "a blacksmith hammering iron on an anvil, sparks flying"（铁匠在铁砧上锤铁，火星四溅），生成出来的视频里真的有金属敲击声，节奏也基本跟锤子落下的节拍对得上。

写 "rain hitting tin roof"（雨打铁皮屋顶），你能听到淅淅沥沥的雨声，而且声音的空间感不错——听起来确实像在室内听外面的雨，而不是一个平面的白噪音。

但翻车也会翻。

试过一个"夜晚森林里的蟋蟀叫声"的 Prompt，结果生成出来的声音更像是电子合成的嗡嗡声，完全不是蟋蟀。模型对一些特定的自然音效识别还不够精准。

还有一个问题是音量平衡。台词和环境音有时候会打架。人物在说话的同时背景雨声盖过了人声，或者反过来，环境应该很吵闹但声音却小得像蚊子哼。目前没有参数可以调节台词和环境音的混音比例，这是个硬伤。

在 Seedance 之前，常见的工作流是：

这个流程的优点是每一步都可控——你能精确调整每个音频轨的音量、时间点、EQ。缺点是累，一个 5 秒的片段对齐音频可能要花十几分钟。

Seedance 的方式是一步到位，但你失去了精细控制。

对于快速出内容的场景（营销素材、社交媒体、短剧），Seedance 的一步到位足够了。

对于需要严格音频控制的场景（纪录片配音、品牌广告），还是老流程靠谱。Seedance 可以用来做初稿预览，确认视觉效果没问题后，再用专业工具替换音频。

Seedance 的 generate_audio 参数可以设成 false。

这时候你就得到了一个纯视频模型，而且因为不需要跑音频分支，Token 消耗减半，速度也更快。

什么时候该这么做？

但要注意一个坑：即使关了音频，模型仍然在内部用双流架构生成。音频分支依然在计算，只是最后不输出音频而已。所以速度提升没有想象中那么大，大约快 10-15%，不是快一倍。

Seedance 的音频输出格式是 48kHz AAC，封装在 MP4 容器里，视频编码是 H.264。

48kHz 采样率已经是广播级标准。如果你要拿来直接发 YouTube 或抖音，格式完全兼容，不需要转码。

但如果你要做后期剪辑，有些老版本的剪辑软件可能会在导入 AAC 音轨时出问题。建议先用 FFmpeg 把音轨提取出来转成 WAV 或者无损格式再导入。

Seedance 的音频不是"完美"的，但它是"够用"的。

对于 80% 的短视频场景，它能省掉你 80% 的音频后期工作。剩下 20% 需要精细打磨的场景，该用专业工具还是得用。关键是心态调整：别把它当成最终交付，把它当成"带声音的草稿"，你的期望值就对了。