把一小时视频扔给 Gemini 3.1 Pro，它能做什么，不能做什么

"原生多模态"这个说法 Google 用了很久，但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入，听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里，把它们挖出来才能知道实际能做什么。

视频：有声和无声的上限不一样

这是我觉得最值得单独说的一点。

带音频的视频比纯视觉视频的 token 消耗更大，所以上限低一些。如果你想分析一段 55 分钟的带声视频，要么静音再传，要么分段处理。

每个 prompt 最多 10 个视频文件。视频按帧采样，默认每帧 70 个分辨率 token。

支持的格式：video/x-flv、video/quicktime、video/mpeg、video/mp4、video/webm、video/wmv、video/3gpp。

音频的上限比视频大得多：每个 prompt 最长约 8.4 小时，或者 100 万 token。每个 prompt 只能放一个音频文件。

支持：AAC、FLAC、MP3、M4A、MPEG、OGG、PCM、WAV、WebM。

用途上，官方文档写了：音频摘要、转录、翻译。也就是说不只是听，还能直接处理语音内容做转写。

每个 prompt 最多 3000 张图片。默认每张按 1120 个分辨率 token 计算。

直接上传（API 或 AI Studio 控制台）每张最大 7MB，通过 Google Cloud Storage 传入最大 30MB。

格式：PNG、JPEG、WebP、HEIC、HEIF。

PDF 最多 3000 页，每个 prompt 最多 3000 个文件。默认分辨率 560 token/页。

不默认做 OCR 扫描件处理，所以如果你传的是扫描版 PDF（而不是文字 PDF），内容识别效果可能有限。

多数多模态模型的内部架构是分开处理不同模态的：有单独的视觉编码器、音频编码器，再拼到文本 transformer 里。Gemini 3.1 Pro 的架构是把所有模态统一在一个 transformer 里，不依赖分开的编码器。

这个差别在实践中体现在两个地方。一个是模态之间的交叉理解——比如你传一段视频，同时提供转录稿，模型可以把画面和对话内容关联起来分析，而不是各看各的。另一个是长视频分析的一致性，整段视频在一个上下文窗口内处理，不用分段后再手动拼合。

不过这里也有一个边界：MMMU-Pro（多模态理解推理）基准上，Gemini 3.1 Pro 得了 80.5%，Gemini 3 Pro 得了 81.0%，反而下降了 0.5%。这说明这次升级的重点不在多模态理解本身，而在文字推理。多模态能力是继承自 Gemini 3 Pro，没有明显提升。

根据 Google 自己的演示和文档，几个比较有意思的实际用法：

会议视频分析。 传一段 45 分钟的会议录屏（带音频），让模型提取决策事项、待办、关键讨论。不用先做转写，直接传视频。

技术文档批量处理。 一次传几百页 PDF（包括有图表的那种），让模型做跨文档摘要或者数据提取。对有大量技术报告要处理的场景有用。

多格式合并分析。 同时传文字说明、图表截图、相关音频，让模型做综合分析。比分开传然后手动整合效率要高。

不太适合的：需要精确逐帧分析、或者对视频时间戳做精确定位的任务，按帧采样的方式会漏掉信息。

参考资料