世界模型的训练数据从哪来的

一个没人正面回答的问题

Genie 3 能生成逼真的 3D 世界。它是怎么学会的？

官方说法是"大量视频数据"。具体是什么视频？从哪儿来的？DeepMind 没说。

这不是小事。训练数据的来源直接关系到产品的法律风险。

Runway 的前车之鉴

2024 年 7 月，有人泄露了 Runway Gen-3 的训练数据清单。

3900 多个 YouTube 频道的视频被用于训练，包括 Netflix、Disney、Pixar 的官方账号。还有独立创作者 Casey Neistat、MKBHD 等。

没有任何人授权。

泄露的表格里还有一个 tab 叫"high_camera_movement"，专门标注了镜头运动丰富的视频来源。说明团队是有组织地抓取特定类型的内容。

事情曝光后，MKBHD 在社交媒体发了批评，说"我之前专门说过不希望我的视频被用于 AI 训练"。

Runway 没有正式回应。

DeepMind 的沉默

Genie 系列论文对训练数据的描述非常模糊。

Genie 1 论文提到用了游戏视频。具体来源？"互联网视频数据"，一笔带过。

Genie 2 和 Genie 3 的技术报告更简短。基本就是"我们训练了一个大模型"，数据来源不提。

这种沉默意味着什么？两种可能。

一是用了版权敏感的数据，不想公开惹麻烦。

二是真的用了合规的数据（比如自己生成的、付费授权的），但出于竞争原因不想透露。

以当前行业风气看，第一种可能性更大。

数据合规的几种路径

正规来讲，训练数据可以从这些渠道获取：

自己生成。用渲染引擎渲一堆视频。成本高，多样性有限。

付费授权。和内容方签协议，按使用量付钱。能获得高质量数据，但谈判周期长，单价不便宜。

Creative Commons。使用允许再利用的开放内容。量不大，类型受限。

公有领域。版权已过期的老片子。画质和风格都跟现代内容差太远。

抓取然后赌一把。从 YouTube 等平台爬视频，不管授权问题。成本最低，风险最高。

目前看来，大部分视频生成模型走的是最后一条路。

YouTube 的态度

YouTube 2024 年更新了服务条款，明确禁止用平台内容训练 AI 模型。

但禁止归禁止，执行是另一回事。你怎么证明一个模型用了 YouTube 视频？生成的画面不会标注来源。

而且有个尴尬的问题：Google 自己就是 YouTube 的母公司。DeepMind 用 YouTube 视频训练模型，在法律上是"自己用自己的"还是"侵犯创作者权益"？

这个问题至今没有明确答案。

对创作者的影响

如果你是视频创作者，你的内容大概率已经被用于训练各种 AI 模型了。

Runway、Pika、Google、OpenAI，没人会老实告诉你"我们用了你的视频"。你唯一能做的是在简介里声明"禁止用于 AI 训练"。

但这有用吗？没有法律约束力的声明，就是一张纸。

有些创作者开始在视频里嵌入特定图案，希望将来能追踪哪些模型"学过"他们的内容。思路类似数字水印。能不能真正有效，还要看后续发展。

法律会怎么走

美国目前没有专门针对 AI 训练数据的联邦法律。各案各判，结果不一。

Getty Images 告 Stability AI 的案子还在进行中。如果 Getty 赢了，会有示范效应。

欧盟的 AI 法案要求披露训练数据摘要。对合规有要求，但"摘要"能模糊到什么程度，还在解释中。

日本和新加坡对 AI 训练采取相对宽松的立场，短期内不太可能有大动作。

未来几年会有更多诉讼。结果取决于法院怎么理解"合理使用"的边界。

我的看法

现阶段用这些模型没问题。法律后果是公司的，不是用户的。

但如果你要用 AI 生成的内容做商业项目，留个心眼。万一将来法院判定训练过程侵权，生成物的版权归属会变得复杂。

最稳妥的做法是把 AI 生成当参考，不要直接当最终素材用。自己的东西，心里踏实。

给 DeepMind 的建议

公开训练数据来源。不需要列每一条视频，但至少说清楚大类：多少是授权的、多少是自己渲染的、有没有用 YouTube 的内容。

透明度是信任的基础。现在藏着掖着，将来如果被曝光，伤害更大。

行业需要一个先例，证明合规训练也能做出好模型。谁先做到，谁拿到道德高地。

目前还没人愿意当这个先例。