Embedding 2 来了，RAG 这回真要变天了？

这两天在 X（推特）和 GitHub 上刷了一圈，发现大家都在讨论 Google 刚刚发布的 Gemini Embedding 2。

老实说，一开始我也没当回事，心想"不就是个 Embedding 模型升级吗？"。但仔细看完技术文档和开发者反馈后，我发现这事儿比我想象的要有意思。

简单来说，Google 这次把原来的 Embedding 模型做了一次彻底的"大一统"。

以前怎么做 vs 现在怎么做

以前我们做多模态搜索（RAG）挺麻烦的。文本用文本的模型，图片用 CLIP 或者别的模型，视频和音频更是头大。要把这些不同的向量对齐到同一个空间里，不仅费劲，效果还经常不稳定。

现在的 Embedding 2 是原生多模态（Natively Multimodal）。

这是什么概念？你把一段文字、一张照片、一段 2 分钟的视频，甚至是一个 PDF 文档丢进去，它直接给你吐出同一个维度的向量。不需要你去搞什么中间转换，也不用担心不同模态之间的语义对齐问题。

这对于开发者来说，简直是省了大麻烦。你在 GitHub 上随便翻翻，像 openclaw 和 claude-code 这些项目的 Issue 区里，已经有不少人在催着合并这个新模型的支持了。大家都很诚实——能少写几百行胶水代码，谁不乐意呢？

除了多模态，还有几个参数挺实在：

Token 上限提到 8192：之前很多模型还在 2k、4k 徘徊，处理长文档还得切片切得稀碎。8k 的窗口虽然不是无限大，但处理一般的长文和代码片段足够用了。
俄罗斯套娃（Matryoshka）表示学习：这个名字挺长，但用处很直接。你可以自己决定输出向量的维度。默认是 3072 维，如果你觉得存起来太贵或者检索太慢，可以直接截取前 1536 甚至 768 维用，效果也不会掉太多。这对成本敏感的项目很友好。
原生语音支持：以前处理语音得先转文字（STT），再转向量。现在 Embedding 2 直接听音频出向量。这意味着你可以直接搜"那个语气很急的会议记录"，而不仅仅是搜关键词。

我在 X 上看到不少开发者在实测。普遍的反馈是：快，而且省钱。

文本 Embedding 的价格压到了 $0.20 / 1M tokens。这个价格虽然不是市面上最低的（毕竟还有开源模型），但考虑到它是 Google 的多模态模型，性价比已经很有竞争力了。

更有意思的是，有人测试了用它做视频检索。以前要搜视频里的某个画面，得抽帧、跑图生文、再检索。现在直接把视频片段扔进去，然后用文字搜，匹配度意外地高。

我觉得 Embedding 2 的发布，最大的影响不是它在榜单上刷了多少分，而是它让"多模态搜索"这件事的门槛变低了。

以前这是大厂或者资深 AI 工程师的玩具，现在一个普通开发者调个 API 就能把视频、音频和文档搜得明明白白。

对于正在做 RAG 应用的朋友，建议去试试。毕竟，与其花时间写代码去拼接不同的模型，不如直接用现成的，把精力花在业务逻辑上。

工具是越来越强了，现在压力给到了产品经理这边：有了这么强的搜索能力，我们还能玩出什么新花样？