试用了 Google 新出的 Embedding 2,关于 RAG 的一些碎碎念

试用了 Google 新出的 Embedding 2,关于 RAG 的一些碎碎念

深夜刷 GitHub,偶然看到 Google 悄悄发布了 Gemini Embedding 2。

本来以为只是个常规的版本号 +1,毕竟现在的模型圈,三天一个小更新,五天一个大新闻,我都快脱敏了。但点进技术文档,看着看着,手里的咖啡突然就不香了。

这一次,Google 好像真的要把 RAG(检索增强生成)的门槛给踩平了。

那个“不仅……而且……”的时代过去了

记得去年做多模态搜索的时候,简直是噩梦。

老板说:“我们要搜视频!搜图片!搜语音!” 也就是一句话的需求,落到我们头上就是:

  • 图片得用 CLIP 跑一遍向量。
  • 文本得用 BERT 或者 text-embedding-3 跑一遍。
  • 视频?得先抽帧,把每一帧当图片处理;或者是把音频提出来转成文字。

最痛苦的是,这些向量还在不同的空间里,强行对齐的效果经常是“驴唇不对马嘴”。

而 Gemini Embedding 2 给我最大的冲击,是它的原生多模态(Natively Multimodal)

什么意思呢?你给它一段文字、一张照片、甚至一段两分钟的视频,它就像个从不偏科的学霸,统统都能消化,然后吐出一个整整齐齐的向量。

我试着把一段测试视频扔给 API(现在的 API 确实方便,不用自己写 ffmpeg 脚本了),然后用一句很模糊的描述去搜。结果它真的找出来了。那种感觉,就像是你对着一个从来没见过的人描述一个梦,而他竟然听懂了。

技术的温度,有时候体现在价格上

除了能力,让我觉得 Google 这次“有点东西”的,是它的定价。

文本 Embedding $0.20 / 1M tokens。

这个价格在现在的市场上,虽然不是绝对的“地板价”,但考虑到它是 Google 的多模态模型,这个性价比其实挺可怕的。这意味着,很多以前因为成本高而只能“想想”的小应用,现在真的可以落地了。

还有个挺有意思的技术细节,叫“俄罗斯套娃(Matryoshka)表示学习”。

简单说,就是向量的维度是可以折叠的。以前我们存向量,为了精度,只能硬着头皮存 3072 维,数据库又贵又慢。现在,你可以只取前 768 维,精度损失很小,但存储成本直接砍掉四分之三。

这种感觉,就像是买了一辆跑车,平时买菜开节能模式,下赛道开运动模式,既要还要,它都给你了。

只有当我们不再谈论“多模态”时

写到这里,我突然想到一个问题。

我们现在还在津津乐道于“多模态”、“向量对齐”、“跨模态检索”。但也许再过几个月,这些词汇就会像当年的“拨号上网”一样,成为历史的尘埃。

当所有的媒介——文字、声音、画面——都能被模型毫无障碍地理解时,我们开发者还需要去关心什么是“模态”吗?

大概不需要了。我们只需要关心:我想找什么?

Embedding 2 只是个开始。它把复杂的底层逻辑封装进了一个黑盒子里,留给我们的,是一个更纯粹的创造空间。

至于这个空间里能长出什么?

那就要看我们的想象力了。


2026.03.12 夜,于键盘前

← 返回博客列表