试用了 Google 新出的 Embedding 2，关于 RAG 的一些碎碎念

深夜刷 GitHub，偶然看到 Google 悄悄发布了 Gemini Embedding 2。

本来以为只是个常规的版本号 +1，毕竟现在的模型圈，三天一个小更新，五天一个大新闻，我都快脱敏了。但点进技术文档，看着看着，手里的咖啡突然就不香了。

这一次，Google 好像真的要把 RAG（检索增强生成）的门槛给踩平了。

那个“不仅……而且……”的时代过去了

记得去年做多模态搜索的时候，简直是噩梦。

老板说：“我们要搜视频！搜图片！搜语音！” 也就是一句话的需求，落到我们头上就是：

最痛苦的是，这些向量还在不同的空间里，强行对齐的效果经常是“驴唇不对马嘴”。

而 Gemini Embedding 2 给我最大的冲击，是它的原生多模态（Natively Multimodal）。

什么意思呢？你给它一段文字、一张照片、甚至一段两分钟的视频，它就像个从不偏科的学霸，统统都能消化，然后吐出一个整整齐齐的向量。

我试着把一段测试视频扔给 API（现在的 API 确实方便，不用自己写 ffmpeg 脚本了），然后用一句很模糊的描述去搜。结果它真的找出来了。那种感觉，就像是你对着一个从来没见过的人描述一个梦，而他竟然听懂了。

除了能力，让我觉得 Google 这次“有点东西”的，是它的定价。

文本 Embedding $0.20 / 1M tokens。

这个价格在现在的市场上，虽然不是绝对的“地板价”，但考虑到它是 Google 的多模态模型，这个性价比其实挺可怕的。这意味着，很多以前因为成本高而只能“想想”的小应用，现在真的可以落地了。

还有个挺有意思的技术细节，叫“俄罗斯套娃（Matryoshka）表示学习”。

简单说，就是向量的维度是可以折叠的。以前我们存向量，为了精度，只能硬着头皮存 3072 维，数据库又贵又慢。现在，你可以只取前 768 维，精度损失很小，但存储成本直接砍掉四分之三。

这种感觉，就像是买了一辆跑车，平时买菜开节能模式，下赛道开运动模式，既要还要，它都给你了。

写到这里，我突然想到一个问题。

我们现在还在津津乐道于“多模态”、“向量对齐”、“跨模态检索”。但也许再过几个月，这些词汇就会像当年的“拨号上网”一样，成为历史的尘埃。

当所有的媒介——文字、声音、画面——都能被模型毫无障碍地理解时，我们开发者还需要去关心什么是“模态”吗？

大概不需要了。我们只需要关心：我想找什么？

Embedding 2 只是个开始。它把复杂的底层逻辑封装进了一个黑盒子里，留给我们的，是一个更纯粹的创造空间。

至于这个空间里能长出什么？

那就要看我们的想象力了。

2026.03.12 夜，于键盘前