提示词工程进入 3D:环境、角色、世界草图三段式提示词怎么写
用 Midjourney 生成图片的时候,你写一段提示词就行。用 Sora 生成视频,也是一段提示词。
但用 Project Genie 生成可交互的世界,你得写两段:一段描述环境,一段描述角色。系统还会先出一张静态预览图让你确认——这是"世界草图"环节。
这套三段式结构不只是换了个形式,它代表了一种新的提示词思维方式。
为什么需要分开写
图片和视频是被动媒体。你看,它呈现。画面里有什么,生成的时候就定了。
可交互世界不一样。画面里有什么会随着你的动作改变。你往左走,左边的东西进入视野;你跳起来,视角升高。
这意味着生成时,模型需要同时理解两件事:
- 这个世界长什么样、有什么物体、什么光照、什么风格
- 你是谁、你能做什么动作、你的视角是什么样的
这两件事的信息密度都很大,塞进一段 prompt 里会互相干扰。分成两段,让模型更容易分别处理。
环境 prompt 该写什么
DeepMind 官方的 prompt guide 给了几个方向:
地形和场景类型。 森林、城市、火山、海洋、室内、废墟。这是基础框架。
地面材质和纹理。 泥土路、柏油马路、草地、雪地。这会影响角色移动的视觉反馈。
核心物体和结构。 有一座石屋、远处有座火山、中间有条河。这些是视觉锚点。
风格和氛围。 写实、卡通、像素风、赛博朋克。还有光照条件——黄昏、阴天、霓虹灯。
动态元素。 有风吗?水在流动吗?有烟雾吗?这些会让世界看起来更活。
一个完整的环境 prompt 可能是:
写实风格的热带雨林,潮湿的空气中漂浮着雾气。地面是泥泞的小径,两侧是巨大的蕨类植物。远处隐约可见一座长满苔藓的石质废墟。阳光透过树冠形成光斑。偶尔有鸟群飞过。
角色 prompt 该写什么
角色不只是"长什么样",还包括"怎么动"和"能做什么"。
外观描述。 一只柴犬、一个穿宇航服的人、一架纸飞机、一辆蓝色玩具车。
移动方式。 走路、跑步、飞行、滑行、滚动。这决定了你按 WASD 时角色怎么响应。
视角设定。 第一人称(看不到自己)还是第三人称(摄像机在角色后面)。
动作影响。 角色经过的时候会留下痕迹吗?会影响环境吗?比如"滚过的地方会留下一道蓝色颜料"。
一个完整的角色 prompt:
一只橙色的柴犬,第三人称视角。能够奔跑和跳跃。跑动时耳朵会随风飘动。摄像机距离角色约 3 米,跟随角色移动。
世界草图环节的用法
你写完环境和角色 prompt 后,系统会用图像生成模型(Nano Banana Pro)给你画一张静态预览图。
这张图是用来确认"模型理解对了没有"。
检查要点:
- 环境风格对不对(你说写实,它画出来是不是写实)
- 核心物体有没有(你说有座废墟,图里有没有)
- 角色位置和大小(角色是不是太大或太小)
- 整体氛围对不对(你说阴森,它画的是不是阴森)
如果不满意,回去改 prompt 重新出图。满意了再点"进入世界"。
这个环节存在是因为生成可交互世界的成本远高于生成静态图片。先用便宜的方式确认方向,再花大成本生成真正的世界。
常见的踩坑点
写太抽象。 "一个美丽的地方"——模型不知道什么叫美丽。要具体:雪山、瀑布、樱花林。
视角写错位置。 角色 prompt 里写"俯瞰视角",但你的角色是一只在地上跑的狗,这就矛盾了。
动态元素太多。 你希望有风暴、闪电、洪水、地震同时发生——模型处理不过来,会变成一团糟。
忘记写移动方式。 你描述了一只鹰,但没说它是飞的。模型可能会让它在地上走。
和游戏关卡设计文档的相似性
如果你做过游戏开发,会发现这套三段式结构很像关卡设计文档(LDD)的简化版。
传统 LDD 里会写:
- 场景概述(对应环境 prompt)
- 玩家角色和能力(对应角色 prompt)
- 视觉参考图(对应世界草图)
区别在于,传统 LDD 写完后要交给美术和程序去实现,需要几周到几个月。Project Genie 的 prompt 写完后几秒钟就能生成。
这不意味着提示词可以随便写。恰恰相反,因为迭代成本低,你应该更系统地写、更仔细地校验,把它当成快速验证想法的工具而不是"随便试试"。
实用模板
如果你刚开始用 Project Genie,可以试试这个结构:
环境 prompt 模板:
[风格]的[场景类型]。地面是[材质]。[远景描述]。[近景描述]。[光照和时间]。[动态元素]。
角色 prompt 模板:
一个/一只[外观描述]。[视角设定]。能够[移动方式]。[可选:动作对环境的影响]。
填空式开始,慢慢学会自由发挥。
提示词工程从二维图像走向三维可交互世界,核心变化是你不再只是描述"是什么",还要描述"能做什么"和"怎么变化"。适应这个思维转变需要一些练习。