刚刚，Sora 2 被挤下神坛！这国产生态真把“音画同频”玩明白了

Sora 2 被挤下榜首。昆仑万维的 SkyReels-V4 冲到了 Artificial Analysis 视频大模型全球第一。

就在上个月，它的 Preview 版还排在第二。这次超越的不仅是 Sora 2，还有 Google Veo 3.1 和快手可灵 3.0。

我在 X 和一众评测博客上翻了几个测试 demo 和深度体验报告，这次升级的核心并非单纯的画质堆砌，而是把痛点落在了两件事上：“联合生成（音画同步）”和“多模态输入与编辑控制”。

撕掉默片标签，原生音画怎么玩？

过去的 AI 视频基本都是默片。就算你外接一个配音工具，口型对不上、动作踩不到鼓点，后期还要在 Premiere 里逐帧微调。

SkyReels-V4 这次交出的答卷是：双流 MMDiT（多模态扩散 Transformer）架构。

简而言之，视频分支和音频分支是在同一个网络里并行生成的，它们共享同一个多模态大语言模型（MLLM）作为文本编码器。而且在每一个 Transformer 块里，音视频特征都在进行双向交叉注意力（Cross-Attention）交互。

什么效果呢？如果你给出的提示词是“赛博朋克机器猫在雨中跳跃，落地踩碎霓虹灯管”，画面里猫爪落地的瞬间，玻璃碎裂和水花声会准时出现。这叫原生音频对齐，没有任何延迟。

有测试者直接喂给它一段 120 BPM 的鼓点音频，要求生成一个陶瓷杯拉近的慢镜头，蒸汽随着重拍上升。一次出图，蒸汽动作的爆发点跟重拍的误差在 40 毫秒以内。这个同步精度，让做后期的剪辑师大舒一口气。

除了原生音画，SkyReels-V4 最大的野心在于“统一”。以往你要做图生视频、视频扩图或者局部重绘，往往得换好几个模型。

但在 V4 的论文里，开发团队巧妙地用“通道拼接（Channel Concatenation）”把这些需求变成了同一个问题——视频补全。

你不仅可以输入文本，还能混搭图片、视频片段甚至遮罩（Mask）。这就带来了极强的可控性：

这一切操作，都不需要像从前那样频繁重抽盲盒。它的编辑功能允许你在保留画面大框架的同时，只去微调特定属性。这从根本上减少了提示词的玄学依赖。

虽然这套工具展现出了惊人的可控性，但目前它依然有自己的舒适区和限制。

由于高分辨率生成带来的巨大计算压力，模型采用了一种“先生成低分辨率完整序列+高分辨率关键帧，再由专属 Refiner 模块补全细节”的策略。这让它能在现有的算力下，一口气输出 1080p、32帧、最高 15 秒带原生声音的高质量镜头。

但 15 秒也就是目前的上限了。相比 Sora 2 或 Veo 动辄 60 秒的宣传，如果你需要一镜到底的长叙事，V4 显然还做不到。超过 15 秒，你就得去进行镜头拼接。

不过，谁最需要这稳定、带对话、好控制的 15 秒呢？

答案是微短剧和短片创作者。短剧看重产出速度、角色一致性和对白的贴合。只要把人物立住，口型对上，节奏稳住，不用你写几百字的小说级提示词，模型就能快速给出能直接用的分镜素材。

这恰恰证明了一件事：SkyReels-V4 并没有去硬刚炫技式的单次超长生成，而是把力气花在了解决“多次修改太痛苦”、“音画对不上”这些最折磨人的工业生产痛点上。

把 AI 视频从随机抽卡变成流水线生产工具。这才是它登顶背后，最值得关注的信号。

参考依据：