刚刚,Sora 2 被挤下神坛!这国产生态真把“音画同频”玩明白了

刚刚,Sora 2 被挤下神坛!这国产生态真把“音画同频”玩明白了

Sora 2 被挤下榜首。昆仑万维的 SkyReels-V4 冲到了 Artificial Analysis 视频大模型全球第一。

就在上个月,它的 Preview 版还排在第二。这次超越的不仅是 Sora 2,还有 Google Veo 3.1 和快手可灵 3.0。

我在 X 和一众评测博客上翻了几个测试 demo 和深度体验报告,这次升级的核心并非单纯的画质堆砌,而是把痛点落在了两件事上:“联合生成(音画同步)”和“多模态输入与编辑控制”

撕掉默片标签,原生音画怎么玩?

过去的 AI 视频基本都是默片。就算你外接一个配音工具,口型对不上、动作踩不到鼓点,后期还要在 Premiere 里逐帧微调。

SkyReels-V4 这次交出的答卷是:双流 MMDiT(多模态扩散 Transformer)架构。

简而言之,视频分支和音频分支是在同一个网络里并行生成的,它们共享同一个多模态大语言模型(MLLM)作为文本编码器。而且在每一个 Transformer 块里,音视频特征都在进行双向交叉注意力(Cross-Attention)交互。

什么效果呢?如果你给出的提示词是“赛博朋克机器猫在雨中跳跃,落地踩碎霓虹灯管”,画面里猫爪落地的瞬间,玻璃碎裂和水花声会准时出现。这叫原生音频对齐,没有任何延迟。

有测试者直接喂给它一段 120 BPM 的鼓点音频,要求生成一个陶瓷杯拉近的慢镜头,蒸汽随着重拍上升。一次出图,蒸汽动作的爆发点跟重拍的误差在 40 毫秒以内。这个同步精度,让做后期的剪辑师大舒一口气。

一套架构,四种玩法:生成与编辑的大一统

除了原生音画,SkyReels-V4 最大的野心在于“统一”。以往你要做图生视频、视频扩图或者局部重绘,往往得换好几个模型。

但在 V4 的论文里,开发团队巧妙地用“通道拼接(Channel Concatenation)”把这些需求变成了同一个问题——视频补全。

你不仅可以输入文本,还能混搭图片、视频片段甚至遮罩(Mask)。这就带来了极强的可控性:

  • 局部替换: 你想改掉一段视频里坐在背景工作台的黑衣路人?直接圈出来让模型重绘。不仅人没了,模型还会自动补全背后的桌子细节,不留残影。
  • 元素移植: 把一张图片里的特定帽子,毫无违和感地扣在另一个跳舞视频的主角头上,整个运动过程帽子都稳稳戴着。
  • 画风迁移: 让一段平平无奇的实拍街景变成赛博朋克都市。

这一切操作,都不需要像从前那样频繁重抽盲盒。它的编辑功能允许你在保留画面大框架的同时,只去微调特定属性。这从根本上减少了提示词的玄学依赖。

极限与真实体验:不吹不擂的 15 秒

虽然这套工具展现出了惊人的可控性,但目前它依然有自己的舒适区和限制。

由于高分辨率生成带来的巨大计算压力,模型采用了一种“先生成低分辨率完整序列+高分辨率关键帧,再由专属 Refiner 模块补全细节”的策略。这让它能在现有的算力下,一口气输出 1080p、32帧、最高 15 秒带原生声音的高质量镜头。

但 15 秒也就是目前的上限了。相比 Sora 2 或 Veo 动辄 60 秒的宣传,如果你需要一镜到底的长叙事,V4 显然还做不到。超过 15 秒,你就得去进行镜头拼接。

不过,谁最需要这稳定、带对话、好控制的 15 秒呢?

答案是微短剧和短片创作者。短剧看重产出速度、角色一致性和对白的贴合。只要把人物立住,口型对上,节奏稳住,不用你写几百字的小说级提示词,模型就能快速给出能直接用的分镜素材。

这恰恰证明了一件事:SkyReels-V4 并没有去硬刚炫技式的单次超长生成,而是把力气花在了解决“多次修改太痛苦”、“音画对不上”这些最折磨人的工业生产痛点上。

把 AI 视频从随机抽卡变成流水线生产工具。这才是它登顶背后,最值得关注的信号。


参考依据:

  1. 同花顺财经:SkyReels V4登上Artificial Analysis榜单全球第一
  2. HyperAI:SkyReels-V4 论文解析与架构解读
  3. WaveSpeedAI 博客及独立创作者的真实测评反馈
← 返回博客列表