Embedding 2 来了,RAG 这回真要变天了?
这两天在 X(推特)和 GitHub 上刷了一圈,发现大家都在讨论 Google 刚刚发布的 Gemini Embedding 2。
老实说,一开始我也没当回事,心想"不就是个 Embedding 模型升级吗?"。但仔细看完技术文档和开发者反馈后,我发现这事儿比我想象的要有意思。
简单来说,Google 这次把原来的 Embedding 模型做了一次彻底的"大一统"。
以前怎么做 vs 现在怎么做
以前我们做多模态搜索(RAG)挺麻烦的。文本用文本的模型,图片用 CLIP 或者别的模型,视频和音频更是头大。要把这些不同的向量对齐到同一个空间里,不仅费劲,效果还经常不稳定。
现在的 Embedding 2 是原生多模态(Natively Multimodal)。
这是什么概念?你把一段文字、一张照片、一段 2 分钟的视频,甚至是一个 PDF 文档丢进去,它直接给你吐出同一个维度的向量。不需要你去搞什么中间转换,也不用担心不同模态之间的语义对齐问题。
这对于开发者来说,简直是省了大麻烦。你在 GitHub 上随便翻翻,像 openclaw 和 claude-code 这些项目的 Issue 区里,已经有不少人在催着合并这个新模型的支持了。大家都很诚实——能少写几百行胶水代码,谁不乐意呢?
几个值得关注的技术点
除了多模态,还有几个参数挺实在:
- Token 上限提到 8192:之前很多模型还在 2k、4k 徘徊,处理长文档还得切片切得稀碎。8k 的窗口虽然不是无限大,但处理一般的长文和代码片段足够用了。
- 俄罗斯套娃(Matryoshka)表示学习:这个名字挺长,但用处很直接。你可以自己决定输出向量的维度。默认是 3072 维,如果你觉得存起来太贵或者检索太慢,可以直接截取前 1536 甚至 768 维用,效果也不会掉太多。这对成本敏感的项目很友好。
- 原生语音支持:以前处理语音得先转文字(STT),再转向量。现在 Embedding 2 直接听音频出向量。这意味着你可以直接搜"那个语气很急的会议记录",而不仅仅是搜关键词。
开发者怎么看?
我在 X 上看到不少开发者在实测。普遍的反馈是:快,而且省钱。
文本 Embedding 的价格压到了 $0.20 / 1M tokens。这个价格虽然不是市面上最低的(毕竟还有开源模型),但考虑到它是 Google 的多模态模型,性价比已经很有竞争力了。
更有意思的是,有人测试了用它做视频检索。以前要搜视频里的某个画面,得抽帧、跑图生文、再检索。现在直接把视频片段扔进去,然后用文字搜,匹配度意外地高。
写在最后
我觉得 Embedding 2 的发布,最大的影响不是它在榜单上刷了多少分,而是它让"多模态搜索"这件事的门槛变低了。
以前这是大厂或者资深 AI 工程师的玩具,现在一个普通开发者调个 API 就能把视频、音频和文档搜得明明白白。
对于正在做 RAG 应用的朋友,建议去试试。毕竟,与其花时间写代码去拼接不同的模型,不如直接用现成的,把精力花在业务逻辑上。
工具是越来越强了,现在压力给到了产品经理这边:有了这么强的搜索能力,我们还能玩出什么新花样?