HappyHorse 1.0 真比 Seedance 2.0 强吗?我用 5 组提示词跑完,发现没那么简单
阿里 HappyHorse 1.0 开启灰测后,AI 视频圈很快吵起来了。
一边是榜单党:HappyHorse-1.0 在第三方盲测榜单里的分数很高,看起来像是突然杀出来的黑马。另一边是实测党:不少创作者看完样片后,反而觉得 Seedance 2.0 更稳。
这两个判断并不一定矛盾。
榜单看的是盲测偏好,真实创作看的是能不能复现、能不能控制角色、能不能稳定出片。为了少一点空谈,我用同一组提示词分别跑了 HappyHorse 1.0 和 Seedance 2.0,重点看三件事:逻辑性、连贯性、自然感。
榜单高,不等于出片稳
公开榜单里,HappyHorse 1.0 的信号确实很强。
- 文生视频无音频:
HappyHorse-1.0高于Seedance 2.0 - 文生视频有音频:
HappyHorse-1.0当前也略高 - 图生视频无音频:
HappyHorse-1.0高于Seedance 2.0 - 图生视频有音频:
Seedance 2.0高于HappyHorse-1.0
所以我不否认 HappyHorse 的能力。但榜单高分不等于每个真实场景都好用,尤其是视频生成。单条样片很好看,不代表换成口播、广告、产品图、短剧分镜还能稳定。
吵的不是分,是成片有没有“活”
我更在意成片里几个细节。
第一,音频和口型。视频不是只有画面,只要涉及对白、唱歌、环境声,观众会立刻变挑剔。
第二,动作是否连得上。模型能不能把“人物先做 A,再做 B,最后发生 C”拍成一个完整事件,比单帧好不好看更重要。
第三,能不能反复交付。很多团队不是非要最强模型,而是要一个今天能交付、明天还能继续用的模型。
这也是为什么社区口碑不一定跟榜单完全一致。
同题开跑:五组提示词见真章
我没有只测一种场景,而是选了五类:喜剧动作、产品广告、物理运动、人物近景、雨夜剧情。每组都用同一段提示词分别生成。
第一组:帽子一开口,模型别露馅
5 秒皮克斯风格 3D,单一慢推镜头。泥泞的英国建筑工地,脚手架、砖墙、水坑、水泥搅拌机、灰蒙蒙的日光。一个矮壮的平头建筑工人坐在轻质砖上戴着安全帽,后面一个工友拿着纸袋,风化的工头拿着剪贴板,将一顶破旧的巫师帽戴在他的头盔上。帽子抽动,形成一张脸,张开像嘴一样,大喊:“SPARKY!”那人跳起来欢呼,工友们鼓掌,一个人用铲子敲打脚手架,工头在剪贴板上打勾,那人一边走一边戴上干净的手套,下一个人紧张地吞咽,帽子瘫倒在一个桶上。清晰焦点,稳定身份,清晰口型,流畅喜剧时机,柔和英国色调。不要抖动、不要模糊、不要漂移、不要多余人物、不要解剖错误、不要缺失道具、不要文字、不要水印。
HappyHorse 1.0 的角色造型更卡通,巫师帽表情更突出,第一眼更有趣。但动作调度有点散,人物之间的因果关系没有完全串起来。Seedance 2.0 的画面没那么讨巧,但场景元素更完整,人物站位也更像一个小剧场。按逻辑性和连贯性看,Seedance 2.0 更稳。
第二组:手表转一圈,质感见高低
5 秒写实广告片风格,一个高端智能手表在黑色反光台面上缓慢旋转,戏剧化棚拍灯光,微距细节,表盘玻璃有清晰高光,金属边框反射环境光,镜头做平滑环绕运动。保持产品轮廓稳定,表带不要融化,表盘数字不要乱跳,反光自然,背景干净,高级商业广告质感。不要文字、不要水印、不要额外物体。
HappyHorse 1.0 明显更像商业广告,金属边框、黑色反光台面、镜头环绕都比较高级,连续旋转的观感也更顺。Seedance 2.0 生成的是方形智能手表,更贴近“智能手表”这个词,产品轮廓也稳定,但微距质感和光影层次弱一些。这组如果看广告成片感,HappyHorse 1.0 更好。
第三组:杯子摔碎,最怕跳步骤
5 秒写实慢动作镜头,一个透明玻璃杯从木桌边缘滑落,落地后碎成很多锋利碎片,碎片向外飞散、反射房间灯光,然后在地面弹跳并停下。镜头低角度跟随,景深浅,光线真实。玻璃破碎要符合物理逻辑,碎片数量自然,不要变成液体,不要漂浮,不要突然恢复完整。
HappyHorse 1.0 的前半段很漂亮,玻璃杯透明质感好,落地后的碎片也亮。但它更像把几个好看的关键状态拼起来,中间“滑落、撞击、破碎、弹跳”的过程不够完整。Seedance 2.0 的玻璃从桌边滑落、破碎、碎片散开到最后停下,过程更像真的发生了。这组 Seedance 2.0 更占优。
第四组:厨师摆盘,手和嘴都别掉链子
5 秒纪录片风格手持中景,一个厨师在明亮现代厨房里给一道菜摆盘,皮肤纹理自然,热气轻轻升起,手部动作真实,浅景深。厨师低声说:“最后一步,决定整道菜的味道。”说话时口型清楚,眼神专注,手指不要变形,餐盘和食材保持稳定,背景厨房不要乱动。
HappyHorse 1.0 做出了很强的近景压迫感,厨师脸部、蒸汽和浅景深都更电影化,但镜头过近,摆盘动作和厨房环境被压缩掉了。Seedance 2.0 更像真实厨房操作,餐盘、食材、锅具和蒸汽都交代清楚,手部摆盘动作也更完整;不过人物脸部出现较晚,口型可读性没有完全达到提示词要求。按逻辑性和自然感,Seedance 2.0 更贴题;按镜头质感,HappyHorse 1.0 更强。
第五组:雨夜记者,谁能把戏接住
5 秒写实电影感视频。雨后的城市夜晚,一个穿深色风衣的年轻女记者站在霓虹灯招牌下,手里拿着一支录音笔。镜头从街对面缓慢推近到中近景,地面有积水反光,背景行人自然走动但不要抢镜。她看向镜头,清楚地说:“现在,真正的问题才刚刚开始。”说话时口型准确,表情从冷静变成轻微紧张。最后 2 秒,她转头看向街角,一辆黑色汽车缓慢驶过,车灯扫过她的脸。画面保持人物身份一致,手指自然,风衣和头发有轻微雨后湿润质感,光影真实,不要变形、不要多余人物、不要文字、不要水印。
HappyHorse 1.0 更有电影感。人物脸部质感、湿发、雨夜反光、镜头推进和最后车灯扫脸都比较抓人,情绪变化也更明显。缺点是衣服更像皮衣,不太像风衣;背景行人少,街道有点空;画面里还是出现了招牌文字。它的自然感强在光影和情绪,但逻辑元素有缺失。
Seedance 2.0 更贴近“女记者现场报道”这个任务。风衣、录音笔、雨夜街道、背景行人和最后转头看车都执行得更完整,场景也更像真实街头。它的问题是电影感弱一些,人物脸部质感没有 HappyHorse 那么抓眼。按逻辑性和连贯性,这组 Seedance 2.0 更稳。
五组看下来,结论比单看一条样片清楚很多。
HappyHorse 的优势是气氛、质感和第一眼高级感。它经常能把画面做得更像短片或广告,尤其适合产品、美感、氛围类任务。但一旦提示词里有比较强的因果链,比如多角色互动、物体运动过程、明确动作顺序,它有时会把关键状态做漂亮,却没有把中间过程接严密。
Seedance 的优势是逻辑性、连贯性和自然执行。它不总是最惊艳,但更愿意把提示词里的元素逐个交代清楚:人物在什么地方、手里拿什么、动作如何发生、前后关系怎么接。对需要反复修改和正式交付的视频来说,这种稳定感很重要。
看完样片,我更信“下限”
如果只看榜单,HappyHorse 1.0 当然值得关注。它的画面潜力很强,生成得好的时候,镜头感、光影和情绪完成度确实吸引人。
但如果看我这几组同题测试,Seedance 2.0 更接近日常生产:音频、参考素材、可控性、任务执行和团队接入。这些东西不一定在榜单上显得性感,但真做内容的人很在意。
所以如果你现在就要做短剧、广告、口播、音乐节奏类视频,我会先测 Seedance 2.0,再把 HappyHorse 1.0 放进对照组。
如果你做的是静音氛围片、视觉概念片、后期会自己配音配乐的视频,那 HappyHorse 1.0 值得试。但别只看一条成功样片,要连续跑十几条,看它的下限。
最后说句不讨好的
这轮争议最有意思的地方,不是 HappyHorse 1.0 有没有超过 Seedance 2.0,而是大家开始意识到:AI 视频模型已经不能只看“哪条样片更炸”了。
榜单可以告诉你盲测偏好。社区样片可以告诉你真实体感。官方文档和 API 才能告诉你能不能放进工作流。
把这三件事分开看,结论就清楚很多:
HappyHorse 1.0 是值得跟踪的强势新模型,但还需要更多真实样本证明自己。Seedance 2.0 不一定在每个榜单上都最高,却仍然是目前很多创作者更愿意相信的生产工具。
短期看,我不会说谁完全赢了。
我更愿意说:HappyHorse 赢了话题,Seedance 还守着工作流。
参考链接
- 参考链接 1:https://artificialanalysis.ai/video/leaderboard/text-to-video
- 参考链接 2:https://seed.bytedance.com/en/blog/official-launch-of-seedance-2-0
- 参考链接 3:https://arxiv.org/pdf/2604.14148
- 参考链接 4:https://technode.com/2026/04/10/alibaba-confirms-happyhorse-belongs-to-its-ath-unit/
- 参考链接 5:https://www.ithome.com/0/944/132.htm
- 参考链接 6:https://finance.sina.com.cn/roll/2026-04-28/doc-inhwaawe7265638.shtml
- 参考链接 7:https://www.163.com/tech/article/KQ5FM7BL00098IEO.html
- 参考链接 8:https://www.163.com/dy/article/KRHVU1C305118O8G.html