Google 搞了个能"凭空生成游戏世界"的 AI,我玩了一下午
封面图建议:一个人站在电脑前,屏幕上显示奇幻 3D 世界的画面
前两天刷推特,看到一堆人在讨论 Google 的新玩意儿。
叫 Project Genie。
简单说就是:你打几个字描述一个场景,它直接给你生成一个能走进去逛的 3D 世界。
不是图片。不是视频。是你能用方向键控制角色在里面跑来跑去的那种。
我当时的反应是:吹吧,又是 PPT。
然后我真的试了一下
(注:目前只对美国地区的 Google AI Ultra 订阅用户开放,月费 250 美元。我是蹭朋友账号玩的。)
打开网页,界面很简单。一个输入框,让你描述想要的世界。
我试着输入:
"废弃的太空站,从破碎的舷窗能看到地球"
等了大概十几秒。
然后屏幕上真的出现了一个太空站。
舷窗是碎的。地球在远处转。我按方向键,角色开始在走廊里飘。
说实话,当时有点发愣。
配图位置:太空站场景截图
这东西到底是怎么做到的
技术上叫"世界模型"。
你可以理解成:AI 看过海量的游戏视频和现实视频,学会了"世界应该长什么样"、"往左走画面会怎么变"这些规律。
然后根据你的描述,实时"想象"出一个世界来。
注意是"想象",不是"搭建"。
传统游戏引擎是程序员一块砖一块砖垒出来的,物理规则是写死的,每个物体都有精确的坐标。
这个不一样。它更像是一边走一边现编。你往前走,它就现编前面的路。你回头看,它再编身后的场景。
有点像做梦。梦里的世界也是这样,只有你正在看的地方是清晰的。
好玩归好玩,问题也不少
玩了一下午,说几个真实感受:
1. 经常"失忆"
我在一个森林里找到一棵特别大的树,标记了一下位置。走远了再走回来,那棵树不见了,换成了一片灌木。
这是因为 AI 的"记忆"只有大概一分钟。超过这个时间,它就忘了之前生成过什么。
2. 物理有时候很搞笑
我生成了一个有瀑布的山谷。水是在往下流的,但流到一半突然拐了个弯往上走。
还见过人物倒着跑、球悬在空中不掉下来之类的。
3. 生成啥很看运气
同样的描述词,每次生成的结果都不一样。有时候很惊艳,有时候一塌糊涂。没法精确控制。
那这东西有啥用?
Google 自己说:这是通向 AGI 的一步。
让 AI 理解"世界是怎么运转的",是通用人工智能的基础能力。
听起来很宏大,对普通人来说有点远。
实际一点的用途可能是:
游戏原型设计。 策划脑子里有个想法,以前要画概念图、找美术、搭场景。现在打几个字就能看到效果,几分钟定稿。
训练机器人。 让机器人在 AI 生成的各种环境里练习走路、避障。比真实测试便宜太多。
纯粹娱乐。 有人已经在用它生成各种奇怪的世界然后录视频发 YouTube 了。
250 美元一个月,值吗?
说实话,不值。
这东西目前更像一个技术演示,而不是成熟产品。
"失忆"问题没解决,就没法做出连贯的体验。物理不稳定,就没法做任何需要精确交互的事情。
花 250 美元/月买这个,相当于花钱当测试员。
除非你是游戏策划需要快速出原型,或者是研究 AI 的需要第一时间上手体验,否则建议等等。
等它更成熟,或者等开源社区做出免费的替代品。
配图位置:Google AI Ultra 订阅页面截图
对普通人意味着什么
我觉得最值得关注的不是这个产品本身,而是它代表的趋势:
"创造"的门槛在快速降低。
以前做一个 3D 场景,需要学 Maya、学 Blender、学 Unity。现在打几个字就有了。
以前写一段代码,需要学编程语言、学框架。现在描述需求就能生成。
以前拍一个视频,需要脚本、设备、剪辑。现在 Sora、Veo 之类的工具也在做这个事。
当"创造"变得越来越容易,什么变得更重要?
我猜是"知道要创造什么"。
会用工具的人会越来越多。但知道这个工具应该做出什么东西、什么东西是好的、什么东西是有价值的——这种判断力可能会变得更稀缺。
写在最后
Project Genie 让我想起第一次用 ChatGPT 的感觉。
当时也是一边玩一边想:"这玩意儿以后会变成什么样?"
两年过去,ChatGPT 已经是很多人工作流的一部分了。
Genie 呢?说不准。可能两年后它变得特别强,也可能被别的技术替代。
但有一件事是确定的:AI 能做的事情清单又多了一项。
而且这项有点厉害。
你对这类 AI 生成世界的技术怎么看?评论区聊聊。
觉得有用的话,点个「在看」👇