Genie 3 技术架构解析:没有 3D 建模如何维持场景一致性

Genie 3 技术架构解析:没有 3D 建模如何维持场景一致性

Genie 3 生成的世界不是传统意义上的 3D 场景。没有多边形网格,没有纹理贴图,没有光线追踪。它做的事情更接近"实时视频生成"。

这种方法有优势也有代价。理解其中的权衡,才能理解 Genie 3 的能力边界。

核心原理

Genie 3 的前身 Genie 2 公开了一些技术细节。虽然 Genie 3 的具体架构没有完整披露,但基本思路应该延续了下来。

系统分两步走。

第一步是自动编码器(Autoencoder)。它把视频帧压缩成"潜在帧"(latent frames),保留画面的核心信息,去掉冗余细节。这有点像 JPEG 压缩图片的原理,但用的是神经网络而不是传统算法。

第二步是动态预测模型(Dynamics Model)。这是一个大型 Transformer,输入是当前的潜在帧加上用户的动作(比如"向前走"),输出是下一帧应该是什么样子。

把这两步串起来,就能实现实时交互。用户按下前进键,系统预测下一帧,渲染出来,再根据新的输入预测再下一帧。循环往复,就形成了可以探索的"世界"。

和传统 3D 渲染的区别

传统游戏引擎怎么渲染一个场景?它存储着场景的完整 3D 数据:每个物体的位置、形状、材质。当摄像机移动时,引擎根据几何关系计算每个像素应该显示什么颜色。这是精确的数学计算。

Genie 3 不存储任何 3D 数据。它只"记得"之前生成过的画面,然后"猜测"下一帧应该是什么样子。

打个比方:传统渲染像是建筑师拿着图纸盖房子,每一块砖的位置都有精确坐标。Genie 3 像是一个画家凭记忆画画,他记得这个角落有一扇窗,但窗户的精确尺寸可能每次画得稍有不同。

这解释了为什么 Genie 3 会有"记忆漂移"。它不是忘了场景,而是从来没有精确地"知道"过场景。它只知道场景"大概应该是什么样子"。

为什么选择这种方法

既然传统 3D 渲染这么精确,为什么不用?

因为 3D 建模需要明确的结构信息。要渲染一把椅子,你得定义椅子的每条腿有多长、座面多高、什么材质。这些信息要么由人类手工创建,要么由专门的算法推断。

从文字描述直接生成精确的 3D 模型是很难的。"一把中世纪风格的木椅"可以有无数种解释。当前的技术还做不到可靠地生成完整、一致、可用的 3D 资产。

但从文字生成"看起来像"中世纪木椅的图像,相对容易。大量的图像生成模型已经证明了这一点。

Genie 3 绕过了 3D 建模这个难题。它不生成 3D 场景,只生成画面序列。这是一种取巧,但目前来看是有效的取巧。

物理模拟的涌现

有意思的是,Genie 3 生成的世界展现出一定的物理合理性。球会滚动,水会流动,光会投射影子。这些行为不是程序员写的规则,而是从训练数据中学来的。

训练数据是大量的视频。视频里,球总是往下滚,水总是向低处流。模型学会了这些统计规律,在生成新画面时会遵循它们。

这是一种"统计物理学"而不是"精确物理学"。球大致会往下滚,但具体滚多快、滚向哪个方向,可能和真实物理有偏差。你也很难指望它处理复杂的情况,比如两个物体碰撞后会发生什么。

对于纯视觉体验来说,这种近似已经够用。但如果你想在上面构建需要精确物理的游戏玩法,就会遇到问题。

720p 24fps 的瓶颈

Genie 3 的输出规格是 720p 分辨率、24 帧每秒。这在 2026 年显得很低。为什么不能更高?

实时性要求是主要限制。24fps 意味着每帧只有大约 40 毫秒的生成时间。在这个时间内,模型要完成编码、预测、解码、渲染一整套流程。分辨率越高、帧率越高,计算压力越大。

对比一下:视频生成模型比如 Sora 可以输出 1080p,但它不是实时的。你提交一个请求,等几分钟,拿到完整视频。Genie 3 要在毫秒级别完成响应,容不得等待。

提高规格需要更快的硬件和更高效的算法。这两方面都在进步,但不是今天就能解决的问题。

视觉记忆的工作方式

Genie 3 能记住场景"好几分钟"。具体是怎么做到的?

一种可能的方法是维护一个"场景状态"向量。每次生成新帧时,不仅参考前一帧,还参考这个状态向量。状态向量记录了场景的关键信息:这里有一扇门,门是开的;那边有一棵树,树旁边有个石头。

但状态向量的容量有限。时间越长,需要记住的细节越多,压缩损失越大。最终一些细节会被"遗忘"或"混淆",表现为场景的微妙变化。

这也解释了为什么 Genie 2 只能记 10 秒,Genie 3 能记几分钟。Genie 3 可能用了更大的状态向量、更好的压缩算法、或者更聪明的信息筛选策略。但根本问题没有解决,只是上限提高了。

和 NeRF、高斯泼溅的关系

有人可能会问:NeRF(Neural Radiance Fields)和 3D Gaussian Splatting 这些技术不是也能从图像生成 3D 场景吗?为什么 Genie 不用?

这些技术确实能从多视角照片重建 3D 场景,而且效果很好。但它们需要输入大量同一场景的不同角度照片,然后优化出一个静态的 3D 表示。

Genie 3 的场景是即时生成的,没有"拍照"这个步骤。而且 Genie 3 的世界可以动态变化——你可以让天下雨,让角色出现。这是静态重建技术做不到的。

未来可能会有混合方案:先用 Genie 类的方法生成场景,再用 NeRF 类的方法提取 3D 结构。但这需要解决很多工程问题,目前还没有看到成熟的实现。

总结

Genie 3 选择了一条非常规的路线:不做精确 3D 建模,而是直接生成视觉序列。

这条路线的优势是灵活性高、创作门槛低、支持自然语言控制。代价是精度有限、记忆有限、物理模拟不可靠。

理解这些权衡,才能合理地使用这个工具。它不是万能的世界构建器,而是一个特定场景下的高效原型工具。

← 返回博客列表