提示词工程进入 3D：环境、角色、世界草图三段式提示词怎么写

用 Midjourney 生成图片的时候，你写一段提示词就行。用 Sora 生成视频，也是一段提示词。

但用 Project Genie 生成可交互的世界，你得写两段：一段描述环境，一段描述角色。系统还会先出一张静态预览图让你确认——这是"世界草图"环节。

这套三段式结构不只是换了个形式，它代表了一种新的提示词思维方式。

为什么需要分开写

图片和视频是被动媒体。你看，它呈现。画面里有什么，生成的时候就定了。

可交互世界不一样。画面里有什么会随着你的动作改变。你往左走，左边的东西进入视野；你跳起来，视角升高。

这意味着生成时，模型需要同时理解两件事：

这个世界长什么样、有什么物体、什么光照、什么风格
你是谁、你能做什么动作、你的视角是什么样的

这两件事的信息密度都很大，塞进一段 prompt 里会互相干扰。分成两段，让模型更容易分别处理。

环境 prompt 该写什么

DeepMind 官方的 prompt guide 给了几个方向：

地形和场景类型。 森林、城市、火山、海洋、室内、废墟。这是基础框架。

地面材质和纹理。 泥土路、柏油马路、草地、雪地。这会影响角色移动的视觉反馈。

核心物体和结构。 有一座石屋、远处有座火山、中间有条河。这些是视觉锚点。

风格和氛围。 写实、卡通、像素风、赛博朋克。还有光照条件——黄昏、阴天、霓虹灯。

动态元素。 有风吗？水在流动吗？有烟雾吗？这些会让世界看起来更活。

一个完整的环境 prompt 可能是：

写实风格的热带雨林，潮湿的空气中漂浮着雾气。地面是泥泞的小径，两侧是巨大的蕨类植物。远处隐约可见一座长满苔藓的石质废墟。阳光透过树冠形成光斑。偶尔有鸟群飞过。

角色 prompt 该写什么

角色不只是"长什么样"，还包括"怎么动"和"能做什么"。

外观描述。 一只柴犬、一个穿宇航服的人、一架纸飞机、一辆蓝色玩具车。

移动方式。 走路、跑步、飞行、滑行、滚动。这决定了你按 WASD 时角色怎么响应。

视角设定。 第一人称（看不到自己）还是第三人称（摄像机在角色后面）。

动作影响。 角色经过的时候会留下痕迹吗？会影响环境吗？比如"滚过的地方会留下一道蓝色颜料"。

一个完整的角色 prompt：

一只橙色的柴犬，第三人称视角。能够奔跑和跳跃。跑动时耳朵会随风飘动。摄像机距离角色约 3 米，跟随角色移动。

世界草图环节的用法

你写完环境和角色 prompt 后，系统会用图像生成模型（Nano Banana Pro）给你画一张静态预览图。

这张图是用来确认"模型理解对了没有"。

检查要点：

环境风格对不对（你说写实，它画出来是不是写实）
核心物体有没有（你说有座废墟，图里有没有）
角色位置和大小（角色是不是太大或太小）
整体氛围对不对（你说阴森，它画的是不是阴森）

如果不满意，回去改 prompt 重新出图。满意了再点"进入世界"。

这个环节存在是因为生成可交互世界的成本远高于生成静态图片。先用便宜的方式确认方向，再花大成本生成真正的世界。

常见的踩坑点

写太抽象。 "一个美丽的地方"——模型不知道什么叫美丽。要具体：雪山、瀑布、樱花林。

视角写错位置。 角色 prompt 里写"俯瞰视角"，但你的角色是一只在地上跑的狗，这就矛盾了。

动态元素太多。 你希望有风暴、闪电、洪水、地震同时发生——模型处理不过来，会变成一团糟。

忘记写移动方式。 你描述了一只鹰，但没说它是飞的。模型可能会让它在地上走。

和游戏关卡设计文档的相似性

如果你做过游戏开发，会发现这套三段式结构很像关卡设计文档（LDD）的简化版。

传统 LDD 里会写：

场景概述（对应环境 prompt）
玩家角色和能力（对应角色 prompt）
视觉参考图（对应世界草图）

区别在于，传统 LDD 写完后要交给美术和程序去实现，需要几周到几个月。Project Genie 的 prompt 写完后几秒钟就能生成。

这不意味着提示词可以随便写。恰恰相反，因为迭代成本低，你应该更系统地写、更仔细地校验，把它当成快速验证想法的工具而不是"随便试试"。

实用模板

如果你刚开始用 Project Genie，可以试试这个结构：

环境 prompt 模板：

[风格]的[场景类型]。地面是[材质]。[远景描述]。[近景描述]。[光照和时间]。[动态元素]。

角色 prompt 模板：

一个/一只[外观描述]。[视角设定]。能够[移动方式]。[可选：动作对环境的影响]。

填空式开始，慢慢学会自由发挥。

提示词工程从二维图像走向三维可交互世界，核心变化是你不再只是描述"是什么"，还要描述"能做什么"和"怎么变化"。适应这个思维转变需要一些练习。