世界模型的训练数据从哪来的

世界模型的训练数据从哪来的

一个没人正面回答的问题

Genie 3 能生成逼真的 3D 世界。它是怎么学会的?

官方说法是"大量视频数据"。具体是什么视频?从哪儿来的?DeepMind 没说。

这不是小事。训练数据的来源直接关系到产品的法律风险。

Runway 的前车之鉴

2024 年 7 月,有人泄露了 Runway Gen-3 的训练数据清单。

3900 多个 YouTube 频道的视频被用于训练,包括 Netflix、Disney、Pixar 的官方账号。还有独立创作者 Casey Neistat、MKBHD 等。

没有任何人授权。

泄露的表格里还有一个 tab 叫"high_camera_movement",专门标注了镜头运动丰富的视频来源。说明团队是有组织地抓取特定类型的内容。

事情曝光后,MKBHD 在社交媒体发了批评,说"我之前专门说过不希望我的视频被用于 AI 训练"。

Runway 没有正式回应。

DeepMind 的沉默

Genie 系列论文对训练数据的描述非常模糊。

Genie 1 论文提到用了游戏视频。具体来源?"互联网视频数据",一笔带过。

Genie 2 和 Genie 3 的技术报告更简短。基本就是"我们训练了一个大模型",数据来源不提。

这种沉默意味着什么?两种可能。

一是用了版权敏感的数据,不想公开惹麻烦。

二是真的用了合规的数据(比如自己生成的、付费授权的),但出于竞争原因不想透露。

以当前行业风气看,第一种可能性更大。

数据合规的几种路径

正规来讲,训练数据可以从这些渠道获取:

自己生成。用渲染引擎渲一堆视频。成本高,多样性有限。

付费授权。和内容方签协议,按使用量付钱。能获得高质量数据,但谈判周期长,单价不便宜。

Creative Commons。使用允许再利用的开放内容。量不大,类型受限。

公有领域。版权已过期的老片子。画质和风格都跟现代内容差太远。

抓取然后赌一把。从 YouTube 等平台爬视频,不管授权问题。成本最低,风险最高。

目前看来,大部分视频生成模型走的是最后一条路。

YouTube 的态度

YouTube 2024 年更新了服务条款,明确禁止用平台内容训练 AI 模型。

但禁止归禁止,执行是另一回事。你怎么证明一个模型用了 YouTube 视频?生成的画面不会标注来源。

而且有个尴尬的问题:Google 自己就是 YouTube 的母公司。DeepMind 用 YouTube 视频训练模型,在法律上是"自己用自己的"还是"侵犯创作者权益"?

这个问题至今没有明确答案。

对创作者的影响

如果你是视频创作者,你的内容大概率已经被用于训练各种 AI 模型了。

Runway、Pika、Google、OpenAI,没人会老实告诉你"我们用了你的视频"。你唯一能做的是在简介里声明"禁止用于 AI 训练"。

但这有用吗?没有法律约束力的声明,就是一张纸。

有些创作者开始在视频里嵌入特定图案,希望将来能追踪哪些模型"学过"他们的内容。思路类似数字水印。能不能真正有效,还要看后续发展。

法律会怎么走

美国目前没有专门针对 AI 训练数据的联邦法律。各案各判,结果不一。

Getty Images 告 Stability AI 的案子还在进行中。如果 Getty 赢了,会有示范效应。

欧盟的 AI 法案要求披露训练数据摘要。对合规有要求,但"摘要"能模糊到什么程度,还在解释中。

日本和新加坡对 AI 训练采取相对宽松的立场,短期内不太可能有大动作。

未来几年会有更多诉讼。结果取决于法院怎么理解"合理使用"的边界。

我的看法

现阶段用这些模型没问题。法律后果是公司的,不是用户的。

但如果你要用 AI 生成的内容做商业项目,留个心眼。万一将来法院判定训练过程侵权,生成物的版权归属会变得复杂。

最稳妥的做法是把 AI 生成当参考,不要直接当最终素材用。自己的东西,心里踏实。

给 DeepMind 的建议

公开训练数据来源。不需要列每一条视频,但至少说清楚大类:多少是授权的、多少是自己渲染的、有没有用 YouTube 的内容。

透明度是信任的基础。现在藏着掖着,将来如果被曝光,伤害更大。

行业需要一个先例,证明合规训练也能做出好模型。谁先做到,谁拿到道德高地。

目前还没人愿意当这个先例。

← 返回博客列表