把一小时视频扔给 Gemini 3.1 Pro,它能做什么,不能做什么

把一小时视频扔给 Gemini 3.1 Pro,它能做什么,不能做什么

"原生多模态"这个说法 Google 用了很久,但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入,听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里,把它们挖出来才能知道实际能做什么。

视频:有声和无声的上限不一样

这是我觉得最值得单独说的一点。

  • 无音频视频:最长约 1 小时
  • 带音频的视频:最长约 45 分钟

带音频的视频比纯视觉视频的 token 消耗更大,所以上限低一些。如果你想分析一段 55 分钟的带声视频,要么静音再传,要么分段处理。

每个 prompt 最多 10 个视频文件。视频按帧采样,默认每帧 70 个分辨率 token。

支持的格式:video/x-flvvideo/quicktimevideo/mpegvideo/mp4video/webmvideo/wmvvideo/3gpp

音频:8.4 小时

音频的上限比视频大得多:每个 prompt 最长约 8.4 小时,或者 100 万 token。每个 prompt 只能放一个音频文件。

支持:AAC、FLAC、MP3、M4A、MPEG、OGG、PCM、WAV、WebM。

用途上,官方文档写了:音频摘要、转录、翻译。也就是说不只是听,还能直接处理语音内容做转写。

图片:3000 张

每个 prompt 最多 3000 张图片。默认每张按 1120 个分辨率 token 计算。

直接上传(API 或 AI Studio 控制台)每张最大 7MB,通过 Google Cloud Storage 传入最大 30MB。

格式:PNG、JPEG、WebP、HEIC、HEIF。

PDF:3000 页

PDF 最多 3000 页,每个 prompt 最多 3000 个文件。默认分辨率 560 token/页。

不默认做 OCR 扫描件处理,所以如果你传的是扫描版 PDF(而不是文字 PDF),内容识别效果可能有限。

为什么"原生多模态"在这里有实际意义

多数多模态模型的内部架构是分开处理不同模态的:有单独的视觉编码器、音频编码器,再拼到文本 transformer 里。Gemini 3.1 Pro 的架构是把所有模态统一在一个 transformer 里,不依赖分开的编码器。

这个差别在实践中体现在两个地方。一个是模态之间的交叉理解——比如你传一段视频,同时提供转录稿,模型可以把画面和对话内容关联起来分析,而不是各看各的。另一个是长视频分析的一致性,整段视频在一个上下文窗口内处理,不用分段后再手动拼合。

不过这里也有一个边界:MMMU-Pro(多模态理解推理)基准上,Gemini 3.1 Pro 得了 80.5%,Gemini 3 Pro 得了 81.0%,反而下降了 0.5%。这说明这次升级的重点不在多模态理解本身,而在文字推理。多模态能力是继承自 Gemini 3 Pro,没有明显提升。

实际能做什么

根据 Google 自己的演示和文档,几个比较有意思的实际用法:

会议视频分析。 传一段 45 分钟的会议录屏(带音频),让模型提取决策事项、待办、关键讨论。不用先做转写,直接传视频。

技术文档批量处理。 一次传几百页 PDF(包括有图表的那种),让模型做跨文档摘要或者数据提取。对有大量技术报告要处理的场景有用。

多格式合并分析。 同时传文字说明、图表截图、相关音频,让模型做综合分析。比分开传然后手动整合效率要高。

不太适合的:需要精确逐帧分析、或者对视频时间戳做精确定位的任务,按帧采样的方式会漏掉信息。


参考资料

← 返回博客列表