世界模型的训练数据从哪来的
一个没人正面回答的问题
Genie 3 能生成逼真的 3D 世界。它是怎么学会的?
官方说法是"大量视频数据"。具体是什么视频?从哪儿来的?DeepMind 没说。
这不是小事。训练数据的来源直接关系到产品的法律风险。
Runway 的前车之鉴
2024 年 7 月,有人泄露了 Runway Gen-3 的训练数据清单。
3900 多个 YouTube 频道的视频被用于训练,包括 Netflix、Disney、Pixar 的官方账号。还有独立创作者 Casey Neistat、MKBHD 等。
没有任何人授权。
泄露的表格里还有一个 tab 叫"high_camera_movement",专门标注了镜头运动丰富的视频来源。说明团队是有组织地抓取特定类型的内容。
事情曝光后,MKBHD 在社交媒体发了批评,说"我之前专门说过不希望我的视频被用于 AI 训练"。
Runway 没有正式回应。
DeepMind 的沉默
Genie 系列论文对训练数据的描述非常模糊。
Genie 1 论文提到用了游戏视频。具体来源?"互联网视频数据",一笔带过。
Genie 2 和 Genie 3 的技术报告更简短。基本就是"我们训练了一个大模型",数据来源不提。
这种沉默意味着什么?两种可能。
一是用了版权敏感的数据,不想公开惹麻烦。
二是真的用了合规的数据(比如自己生成的、付费授权的),但出于竞争原因不想透露。
以当前行业风气看,第一种可能性更大。
数据合规的几种路径
正规来讲,训练数据可以从这些渠道获取:
自己生成。用渲染引擎渲一堆视频。成本高,多样性有限。
付费授权。和内容方签协议,按使用量付钱。能获得高质量数据,但谈判周期长,单价不便宜。
Creative Commons。使用允许再利用的开放内容。量不大,类型受限。
公有领域。版权已过期的老片子。画质和风格都跟现代内容差太远。
抓取然后赌一把。从 YouTube 等平台爬视频,不管授权问题。成本最低,风险最高。
目前看来,大部分视频生成模型走的是最后一条路。
YouTube 的态度
YouTube 2024 年更新了服务条款,明确禁止用平台内容训练 AI 模型。
但禁止归禁止,执行是另一回事。你怎么证明一个模型用了 YouTube 视频?生成的画面不会标注来源。
而且有个尴尬的问题:Google 自己就是 YouTube 的母公司。DeepMind 用 YouTube 视频训练模型,在法律上是"自己用自己的"还是"侵犯创作者权益"?
这个问题至今没有明确答案。
对创作者的影响
如果你是视频创作者,你的内容大概率已经被用于训练各种 AI 模型了。
Runway、Pika、Google、OpenAI,没人会老实告诉你"我们用了你的视频"。你唯一能做的是在简介里声明"禁止用于 AI 训练"。
但这有用吗?没有法律约束力的声明,就是一张纸。
有些创作者开始在视频里嵌入特定图案,希望将来能追踪哪些模型"学过"他们的内容。思路类似数字水印。能不能真正有效,还要看后续发展。
法律会怎么走
美国目前没有专门针对 AI 训练数据的联邦法律。各案各判,结果不一。
Getty Images 告 Stability AI 的案子还在进行中。如果 Getty 赢了,会有示范效应。
欧盟的 AI 法案要求披露训练数据摘要。对合规有要求,但"摘要"能模糊到什么程度,还在解释中。
日本和新加坡对 AI 训练采取相对宽松的立场,短期内不太可能有大动作。
未来几年会有更多诉讼。结果取决于法院怎么理解"合理使用"的边界。
我的看法
现阶段用这些模型没问题。法律后果是公司的,不是用户的。
但如果你要用 AI 生成的内容做商业项目,留个心眼。万一将来法院判定训练过程侵权,生成物的版权归属会变得复杂。
最稳妥的做法是把 AI 生成当参考,不要直接当最终素材用。自己的东西,心里踏实。
给 DeepMind 的建议
公开训练数据来源。不需要列每一条视频,但至少说清楚大类:多少是授权的、多少是自己渲染的、有没有用 YouTube 的内容。
透明度是信任的基础。现在藏着掖着,将来如果被曝光,伤害更大。
行业需要一个先例,证明合规训练也能做出好模型。谁先做到,谁拿到道德高地。
目前还没人愿意当这个先例。