Project Genie 拆解:World Sketching、Exploration、Remixing 为什么是产品化起点
Google 把 Genie 3 包装成 Project Genie 推给消费者的时候,没有直接丢一个文本框让你填提示词。它设计了三个步骤:World Sketching(世界草图)、World Exploration(世界探索)、World Remixing(世界混搭)。
这套流程看起来简单,背后的产品逻辑值得拆一下。
第一步:World Sketching
你输入两段文字:一段描述环境(森林、城市、火山),一段描述角色(机器人、柴犬、纸飞机)。系统先用 Nano Banana Pro(Google 的图像生成模型)给你画一张静态预览图。
这张图不是装饰,而是一个确认环节。你可以看到"原来它理解的森林长这样",然后决定要不要调整描述。满意了再点"进入世界"。
为什么要加这一步?因为世界模型生成成本高。直接生成 60 秒的可交互世界,如果效果不对,算力就白烧了。先出一张静态图让用户确认,失败成本低得多。
第二步:World Exploration
进入世界后,你用 WASD 移动,用方向键转视角。系统实时生成你面前的画面。这是 Genie 3 的核心能力展示:你往前走,它就画你前面的路;你转头,它就画你侧面的景色。
60 秒后世界结束,你可以下载这段探索的录像。
这个时长限制不是随便定的。根据 DeepMind 的说法,Genie 3 的视觉记忆大约能覆盖一分钟——再往前的场景它就开始忘了。把体验时长卡在记忆边界之内,可以保证用户看到的世界不会突然"失忆"变形。
第三步:World Remixing
Google 预设了一批官方世界,你可以拿来改。换个角色、换个风格、换个时间天气。这降低了创作门槛——你不用从头描述一个完整环境,只需要说"把这个雪山世界里的滑雪者换成柴犬"。
Remixing 还有另一个作用:让用户之间产生内容流动。如果未来开放用户上传自己的世界模板,就会形成一个"世界素材库"。
为什么不直接开放 API
很多开发者的第一反应是:给我个 API,让我自己调。
但 Google 没这么做,目前只有这个网页版体验入口。原因可能有几个:
成本控制。 实时生成 720p 视频帧的算力成本很高。API 开放后,调用量不可控,成本会爆炸。先用订阅制(每月 250 美元)筛选用户,观察使用模式。
安全边界还没画好。 The Verge 的测试记者发现,Project Genie 一开始能生成任天堂风格的游戏世界。但到测试结束时,同样的提示词开始被拦截,理由是"第三方内容提供方利益"。这说明 Google 还在实时调整内容策略,不适合开放给程序化调用。
收集使用数据。 DeepMind 在博客里说,开放 Project Genie 是为了"看看人们会怎么用它"。一个封闭的网页端比开放 API 更容易追踪用户行为。
三步流程的设计意图
回过头看这三步:
- Sketching 降低试错成本,让用户在便宜的环节确认意图
- Exploration 展示核心能力,但用时长限制控制风险
- Remixing 降低创作门槛,引导用户基于模板修改而不是从零开始
这是一个典型的"先圈住场景,再逐步放开"的产品化路径。与其一开始就开放所有能力然后手忙脚乱地打补丁,不如先用一个受控的流程验证用户需求和风险边界。
下一步可能是什么
如果 Project Genie 跑顺了,下一步可能是:
- 延长单次体验时长(需要模型记忆能力提升)
- 开放更多动作(捡东西、开门)
- 推出创作者版本,允许上传自定义素材
- 最后才是开发者 API
不过这都是猜测。目前能确定的是:Google 选择用一个精心设计的三步流程来控制 Genie 3 的首次公开亮相,而不是直接扔出一个"随便玩"的沙盒。这个选择本身就说明了很多问题。