从静图到动态叙事：Seedance Image-to-Video 工作流

手上有一张产品图、一张人物照、或者一张 AI 生成的插画？Seedance 能让它"活"起来。

Image-to-Video 和 Text-to-Video 的区别

Text-to-Video（T2V）是从零开始——模型根据文字描述凭空生成视频。 Image-to-Video（I2V）是有起点的——你给模型一张图作为第一帧，模型根据这张图和你的文字描述生成后续的运动。

I2V 的好处很直接：视觉一致性更好。因为第一帧是你给定的，人物长什么样、场景是什么颜色、构图如何，这些都被锁定了。模型只需要在这个基础上"动"起来，而不用同时处理"想象+运动"两件事。

接口参数

在 fal.ai 上，Seedance 的 I2V 端点是 fal-ai/bytedance/seedance/v1.5/pro/image-to-video。

result = fal_client.subscribe(
    "fal-ai/bytedance/seedance/v1.5/pro/image-to-video",
    arguments={
        "image_url": "https://your-bucket.s3.amazonaws.com/photo.jpg",
        "prompt": "The woman slowly turns her head and smiles",
        "duration": "5",
        "resolution": "720p",
        "generate_audio": True
    }
)

重要参数：

image_url：输入图片的 URL。需要是公开可访问的链接。
prompt：描述你希望图片中发生什么动作。这里只写动作和声音就行，不用再描述场景，因为场景已经在图片里了。

还有一个高级玩法：同时给首帧和尾帧。

arguments={
    "image_url": "https://...start_frame.jpg",
    "end_image_url": "https://...end_frame.jpg",
    "prompt": "Smooth transition from day to night",
    ...
}

模型会生成从起点到终点的运动过渡。这在做"变身"、"场景转换"、"时间流逝"类效果时特别好用。

Prompt 的写法和 T2V 完全不同

在 I2V 模式下，最常见的错误是重复描述图片里已有的内容。

错误写法：

A beautiful woman with long black hair wearing a red dress standing in front of a castle, she turns around and walks away.

前半句全是废话——这些信息图片里都有了。模型看到这些描述会困惑：你是想让它重新画一个这样的人，还是直接用图片里的人？

正确写法：

She turns around slowly and walks away, her dress flowing in the wind.

只写动作。让图片提供"静态信息"，让 Prompt 提供"动态信息"。

避免和图片矛盾

这是另一个高频踩坑点。

如果你的图片里是一个坐着的人，你在 Prompt 里写"she stands up and runs"，模型会很挣扎。它可能会：

生成一个从坐到站的生硬过渡，看起来像是人体被拉伸了
直接忽略图片，生成一个站着的人跑步（这时候视觉一致性就崩了）
卡住不动，人物就坐在那里微微晃动

最保险的原则是：Prompt 描述的动作应该是图片状态的自然延续。

坐着的人 → 可以写"she picks up the cup on the table"（拿杯子）
站着的人 → 可以写"she walks forward"（往前走）
特写脸部 → 可以写"she smiles and tilts her head"（微笑歪头）

不要试图让模型跨越太大的姿态变化。

实际应用场景

电商产品展示

拿一张静态的产品图（白底照），用 I2V 让产品旋转、或者让相机围绕产品转一圈。

The product slowly rotates 360 degrees on a white background, 
soft studio lighting reflecting on its surface.

这种用法性价比极高。以前做产品 360° 展示视频，要么真的搭旋转台拍摄，要么用 3D 建模渲染。现在一张照片 + $0.26 搞定。

人物口播

拿一张人物正面照，让人物开口说话。

The man looks at the camera and says "Welcome to our channel, 
today we're going to talk about something exciting." 
Friendly, warm tone.

适合做虚拟主播、数字人口播。但注意前面说的口型精度问题——中文长句效果不如英语。

漫画/插画动态化

拿一张 AI 生成的插画，给它加上动效。

Wind blows through the character's hair, 
leaves floating in the background, gentle swaying motion.

做手游宣传、小说封面动态展示很实用。

总结

I2V 模式是 Seedance 的实用门面。很多时候你已经有了满意的视觉素材（产品图、人物照、插画），只需要让它"动一下"就能用。

记住两个核心原则：只写动作不写场景，不要和图片矛盾。做到这两点，I2V 的成功率会高很多。