Promptable World Events:实时改写 AI 世界的技术原理与创意玩法
不只是生成,还能改
Genie 3 最让人意外的功能之一是 Promptable World Events。简单说:你可以在探索世界的过程中,用文字命令改变世界。
比如你正在探索一个晴天的山谷,突然输入"下起暴风雪",画面就会开始飘雪,能见度下降,地面变白。
这不是预设的天气系统。模型是在实时理解你的文字,然后"想象"这个变化应该长什么样。
技术上怎么实现的
Genie 3 是自回归模型。它根据之前的画面和用户输入,一帧一帧生成下一帧。
正常情况下,用户输入是方向键——上下左右。Promptable World Events 的做法是把文字描述也作为输入的一部分。
模型在训练时见过大量"场景变化"的视频:天气变化、物体出现消失、光照改变等。它学会了"某个文字描述应该对应什么样的视觉变化"。
推理时,你输入"突然出现一条龙",模型就会尝试生成符合这个描述的后续帧。
关键限制是:模型的记忆窗口大概一分钟。如果你生成了一条龙,走远了再走回来,龙可能不见了。它不是真的"放"了一条龙在那里,而是在那段时间里"记得"要画一条龙。
目前能做什么
根据演示资料,已经验证的功能包括:
天气变化
- 晴天转暴风雨
- 正常天气转飓风
- 添加雾气或沙尘
物体注入
- 让某个角色出现在场景中
- 添加车辆、动物等物体
- 创造奇幻元素(传送门之类)
环境切换
- 从一个场景过渡到另一个场景
- 昼夜变化
- 季节变化
交互式编辑
- 改变场景中某些元素的状态
消费者版本的限制
Project Genie(面向 Google AI Ultra 订阅用户的版本)目前开放的功能比较有限。
用户可以做的:
- 用文字或图片生成初始世界
- 用方向键探索
- 在有限范围内 remix 别人的世界
完整的 Promptable World Events 功能似乎还没有开放给普通用户。演示视频里的实时天气变化、动态角色注入等功能,消费者版本可能还用不了。
这可能是因为:
- 功能还不够稳定
- 计算成本太高
- 内容审核还没准备好(如果用户能注入任意内容,风险很大)
创意应用场景
如果这个功能完全开放,能做什么?
互动叙事
传统游戏的剧情是预设的。有了 Promptable World Events,玩家可以自己制造剧情事件。"让城堡着火"、"让 NPC 背叛我"——这些在传统游戏里需要开发者预先设计,在世界模型里可以即时生成。
当然,生成的质量和连贯性还远不如人工设计的剧情。但作为沙盒玩具已经够有趣了。
快速原型
游戏策划想验证一个想法:"如果这个关卡突然发生地震会怎样?"以前要让程序员和美术花几天实现。现在可以直接输入命令看效果。
效果肯定很粗糙,但足够判断这个想法值不值得做。
训练数据生成
如果你在训练一个处理紧急情况的 Agent,需要各种灾难场景的数据。让人手动搭建太慢。用 Promptable World Events,可以快速生成"仓库着火"、"洪水来了"、"建筑倒塌"等场景。
生成的场景物理可能不准,但用来训练视觉识别模块已经够用了。
教育和培训
想象一个消防培训场景。学员在一个正常的建筑里,教官输入"三楼起火",场景就变了。学员需要判断疏散路线。教官再输入"楼梯被堵",情况又变了。
这种动态场景变化,传统模拟器要预先设计所有可能的组合。世界模型可以即时响应。
当前的问题
一致性不够。 你让天气变化,变是变了,但可能过几秒又变回去。模型的"记忆"不够长。
物理不可靠。 你让一辆车出现,车可能悬在空中,或者穿进建筑里。模型理解"车应该在这里",但不理解"车应该站在地上"。
响应不可控。 同一个命令,每次生成的结果可能不同。你想要一条红龙,可能给你绿的。没法精确指定。
无法撤销。 改了就是改了,没有 Ctrl+Z。想回到之前的状态只能重新生成。
和 Minecraft 的对比
有人说 Genie 3 的 Promptable World Events 像 Minecraft 的创造模式加上语音命令。
区别在于:Minecraft 的世界是规则驱动的,你放一个方块,它就永远在那里。Genie 3 的世界是生成的,所有东西都是临时的,没有持久状态。
Minecraft 是可编辑的世界。Genie 3 是可描述的幻觉。
这不是贬义。幻觉也有用处。但不要混淆这两者。
我的判断
Promptable World Events 是世界模型最吸引人的功能之一。它展示了一种全新的交互方式:用自然语言实时编辑虚拟世界。
但目前离实用还有距离。一致性、可控性、稳定性都需要提升。
作为技术演示很震撼。作为生产工具还不成熟。保持关注,但别急着投入生产。