Promptable World Events:实时改写 AI 世界的技术原理与创意玩法

Promptable World Events:实时改写 AI 世界的技术原理与创意玩法

不只是生成,还能改

Genie 3 最让人意外的功能之一是 Promptable World Events。简单说:你可以在探索世界的过程中,用文字命令改变世界。

比如你正在探索一个晴天的山谷,突然输入"下起暴风雪",画面就会开始飘雪,能见度下降,地面变白。

这不是预设的天气系统。模型是在实时理解你的文字,然后"想象"这个变化应该长什么样。

技术上怎么实现的

Genie 3 是自回归模型。它根据之前的画面和用户输入,一帧一帧生成下一帧。

正常情况下,用户输入是方向键——上下左右。Promptable World Events 的做法是把文字描述也作为输入的一部分。

模型在训练时见过大量"场景变化"的视频:天气变化、物体出现消失、光照改变等。它学会了"某个文字描述应该对应什么样的视觉变化"。

推理时,你输入"突然出现一条龙",模型就会尝试生成符合这个描述的后续帧。

关键限制是:模型的记忆窗口大概一分钟。如果你生成了一条龙,走远了再走回来,龙可能不见了。它不是真的"放"了一条龙在那里,而是在那段时间里"记得"要画一条龙。

目前能做什么

根据演示资料,已经验证的功能包括:

天气变化

  • 晴天转暴风雨
  • 正常天气转飓风
  • 添加雾气或沙尘

物体注入

  • 让某个角色出现在场景中
  • 添加车辆、动物等物体
  • 创造奇幻元素(传送门之类)

环境切换

  • 从一个场景过渡到另一个场景
  • 昼夜变化
  • 季节变化

交互式编辑

  • 改变场景中某些元素的状态

消费者版本的限制

Project Genie(面向 Google AI Ultra 订阅用户的版本)目前开放的功能比较有限。

用户可以做的:

  1. 用文字或图片生成初始世界
  2. 用方向键探索
  3. 在有限范围内 remix 别人的世界

完整的 Promptable World Events 功能似乎还没有开放给普通用户。演示视频里的实时天气变化、动态角色注入等功能,消费者版本可能还用不了。

这可能是因为:

  1. 功能还不够稳定
  2. 计算成本太高
  3. 内容审核还没准备好(如果用户能注入任意内容,风险很大)

创意应用场景

如果这个功能完全开放,能做什么?

互动叙事

传统游戏的剧情是预设的。有了 Promptable World Events,玩家可以自己制造剧情事件。"让城堡着火"、"让 NPC 背叛我"——这些在传统游戏里需要开发者预先设计,在世界模型里可以即时生成。

当然,生成的质量和连贯性还远不如人工设计的剧情。但作为沙盒玩具已经够有趣了。

快速原型

游戏策划想验证一个想法:"如果这个关卡突然发生地震会怎样?"以前要让程序员和美术花几天实现。现在可以直接输入命令看效果。

效果肯定很粗糙,但足够判断这个想法值不值得做。

训练数据生成

如果你在训练一个处理紧急情况的 Agent,需要各种灾难场景的数据。让人手动搭建太慢。用 Promptable World Events,可以快速生成"仓库着火"、"洪水来了"、"建筑倒塌"等场景。

生成的场景物理可能不准,但用来训练视觉识别模块已经够用了。

教育和培训

想象一个消防培训场景。学员在一个正常的建筑里,教官输入"三楼起火",场景就变了。学员需要判断疏散路线。教官再输入"楼梯被堵",情况又变了。

这种动态场景变化,传统模拟器要预先设计所有可能的组合。世界模型可以即时响应。

当前的问题

一致性不够。 你让天气变化,变是变了,但可能过几秒又变回去。模型的"记忆"不够长。

物理不可靠。 你让一辆车出现,车可能悬在空中,或者穿进建筑里。模型理解"车应该在这里",但不理解"车应该站在地上"。

响应不可控。 同一个命令,每次生成的结果可能不同。你想要一条红龙,可能给你绿的。没法精确指定。

无法撤销。 改了就是改了,没有 Ctrl+Z。想回到之前的状态只能重新生成。

和 Minecraft 的对比

有人说 Genie 3 的 Promptable World Events 像 Minecraft 的创造模式加上语音命令。

区别在于:Minecraft 的世界是规则驱动的,你放一个方块,它就永远在那里。Genie 3 的世界是生成的,所有东西都是临时的,没有持久状态。

Minecraft 是可编辑的世界。Genie 3 是可描述的幻觉。

这不是贬义。幻觉也有用处。但不要混淆这两者。

我的判断

Promptable World Events 是世界模型最吸引人的功能之一。它展示了一种全新的交互方式:用自然语言实时编辑虚拟世界。

但目前离实用还有距离。一致性、可控性、稳定性都需要提升。

作为技术演示很震撼。作为生产工具还不成熟。保持关注,但别急着投入生产。

← 返回博客列表