Genie、Sora、World Labs：AI 生成式世界的三条路线

2025-2026 年，三个团队在"AI 生成世界"这个方向上引人关注：Google DeepMind 的 Genie、OpenAI 的 Sora、以及 Fei-Fei Li 创立的 World Labs。

他们走的是三条不同的路。

Genie：世界模型路线

Genie 的目标是生成可交互的 3D 环境。你输入文字描述，它生成一个你可以走进去的空间。可以用键盘控制移动，可以实时观察环境的变化。

技术上，Genie 不存储精确的 3D 数据。它用神经网络逐帧预测"下一帧画面应该是什么样子"。这种方法的优势是灵活——可以实时响应用户输入，可以通过 Promptable Events 即时改变场景。劣势是精度有限，记忆会漂移。

Genie 3 已经商业化了，放在 Google 的 AI Ultra 订阅里，$249.99/月。

Sora 生成的是视频片段，不是可交互的世界。你输入提示词，等几分钟，拿到一段可能有几秒到一分钟的视频。

视频可以做到很高的画质——1080p 甚至更高。帧与帧之间的连贯性很好，运动自然，光影逼真。但你只能看，不能走进去，不能改变方向，不能与场景交互。

OpenAI 把 Sora 定位为"创意工具"。做短视频、生成 B-roll、制作概念演示，这些场景用 Sora 很合适。它不打算解决"可交互"的问题。

Sora 目前还没有完全公开。部分用户可以申请使用，定价策略还不明确。

World Labs 是 Fei-Fei Li（李飞飞）离开斯坦福后创立的公司。他们的方向是"空间智能"（Spatial Intelligence）——让 AI 理解和生成 3D 空间。

和 Genie 不同，World Labs 似乎更侧重于精确的 3D 重建而不是实时生成。他们可能使用类似 NeRF 或 Gaussian Splatting 的技术，从 2D 图像推断出可以从任意角度查看的 3D 场景。

World Labs 拿到了大量融资，但产品还没有公开发布。能看到的只是一些演示视频和技术博客。他们的具体能力和 Genie、Sora 怎么比较，现在还很难判断。

把这三个产品放在一起比较，会发现它们在回答不同的问题。

Sora 回答的问题是：如何生成好看的视频内容？用户想要一段能直接使用的素材，不需要交互，需要高画质。

Genie 回答的问题是：如何创造可以探索的虚拟空间？用户想要一个能走进去感受的环境，交互性比画质更重要。

World Labs 回答的问题是：如何让机器理解 3D 空间？这更偏向底层能力，可能最终服务于机器人、AR/VR、自动驾驶等领域。

三个问题都有价值，但用户群体和应用场景有所不同。

Sora 选择不做交互，换来了更高的视觉质量。生成视频时模型可以花时间优化每一帧，不需要考虑实时性。

Genie 选择做实时交互，接受了分辨率和帧率的限制。24fps 720p 在 2026 年不算好看，但这是保证实时响应的代价。

World Labs 的选择还不清楚。如果他们走精确 3D 重建的路线，可能能得到比 Genie 更稳定的场景（不会有记忆漂移），但生成速度可能更慢。

没有哪条路线绝对更好。取决于你想解决什么问题。

短期看，这三个产品的用户群体重叠不大。

想做短视频的人会用 Sora。想快速验证游戏关卡设计的人会用 Genie。做机器人或 AR 的人可能会关注 World Labs。

长期看，可能会有融合。比如先用 Genie 快速生成一个场景原型，再用 World Labs 的技术提取精确 3D 模型，最后用 Sora 生成宣传视频。三个工具各司其职。

也可能某一方突破了限制，抢占了其他人的地盘。如果 Genie 的画质追上了 Sora，谁还需要只能看不能动的视频？如果 World Labs 的生成速度追上了 Genie，谁还会接受记忆漂移的问题？

预测技术竞争的结果是危险的。几年前大家以为 Metaverse 会成为下一个大事，现在这个词已经很少被提起。

可以确定的是，这三家都有雄厚的资金和人才。Google DeepMind 是世界顶级的 AI 实验室。OpenAI 靠 ChatGPT 赚了大钱，有足够的资源继续投入。World Labs 拿到了顶级 VC 的支持，而且有 Fei-Fei Li 的学术声望背书。

短期内不会有明确的赢家。每条路线都会继续发展，产品会变得越来越好。用户会根据自己的需求选择最合适的工具。

这三家公司的存在说明"AI 生成世界"是一个值得认真对待的方向。顶级团队愿意投入资源，说明有真实的技术可能性和商业价值。

但目前的产品都还有明显的局限。Sora 不能交互，Genie 画质有限，World Labs 还没发布。没有哪个产品能满足"在 AI 生成的世界里自由探索"这个完整愿景。

这意味着机会还存在。如果有人能解决画质、交互性、稳定性这三个问题中的任意两个，就能在市场上取得显著优势。

接下来几年会很精彩。