试用了 Google 新出的 Embedding 2,关于 RAG 的一些碎碎念
深夜刷 GitHub,偶然看到 Google 悄悄发布了 Gemini Embedding 2。
本来以为只是个常规的版本号 +1,毕竟现在的模型圈,三天一个小更新,五天一个大新闻,我都快脱敏了。但点进技术文档,看着看着,手里的咖啡突然就不香了。
这一次,Google 好像真的要把 RAG(检索增强生成)的门槛给踩平了。
那个“不仅……而且……”的时代过去了
记得去年做多模态搜索的时候,简直是噩梦。
老板说:“我们要搜视频!搜图片!搜语音!” 也就是一句话的需求,落到我们头上就是:
- 图片得用 CLIP 跑一遍向量。
- 文本得用 BERT 或者 text-embedding-3 跑一遍。
- 视频?得先抽帧,把每一帧当图片处理;或者是把音频提出来转成文字。
最痛苦的是,这些向量还在不同的空间里,强行对齐的效果经常是“驴唇不对马嘴”。
而 Gemini Embedding 2 给我最大的冲击,是它的原生多模态(Natively Multimodal)。
什么意思呢?你给它一段文字、一张照片、甚至一段两分钟的视频,它就像个从不偏科的学霸,统统都能消化,然后吐出一个整整齐齐的向量。
我试着把一段测试视频扔给 API(现在的 API 确实方便,不用自己写 ffmpeg 脚本了),然后用一句很模糊的描述去搜。结果它真的找出来了。那种感觉,就像是你对着一个从来没见过的人描述一个梦,而他竟然听懂了。
技术的温度,有时候体现在价格上
除了能力,让我觉得 Google 这次“有点东西”的,是它的定价。
文本 Embedding $0.20 / 1M tokens。
这个价格在现在的市场上,虽然不是绝对的“地板价”,但考虑到它是 Google 的多模态模型,这个性价比其实挺可怕的。这意味着,很多以前因为成本高而只能“想想”的小应用,现在真的可以落地了。
还有个挺有意思的技术细节,叫“俄罗斯套娃(Matryoshka)表示学习”。
简单说,就是向量的维度是可以折叠的。以前我们存向量,为了精度,只能硬着头皮存 3072 维,数据库又贵又慢。现在,你可以只取前 768 维,精度损失很小,但存储成本直接砍掉四分之三。
这种感觉,就像是买了一辆跑车,平时买菜开节能模式,下赛道开运动模式,既要还要,它都给你了。
只有当我们不再谈论“多模态”时
写到这里,我突然想到一个问题。
我们现在还在津津乐道于“多模态”、“向量对齐”、“跨模态检索”。但也许再过几个月,这些词汇就会像当年的“拨号上网”一样,成为历史的尘埃。
当所有的媒介——文字、声音、画面——都能被模型毫无障碍地理解时,我们开发者还需要去关心什么是“模态”吗?
大概不需要了。我们只需要关心:我想找什么?
Embedding 2 只是个开始。它把复杂的底层逻辑封装进了一个黑盒子里,留给我们的,是一个更纯粹的创造空间。
至于这个空间里能长出什么?
那就要看我们的想象力了。
2026.03.12 夜,于键盘前