Gemini 3.1 Pro 传了一小时视频进去，结果有点意外

Google 反复说 Gemini 3.1 Pro 是"原生多模态"模型——图片、音频、视频、PDF 都能一起处理。这个说法从 Gemini 1.0 就开始用了，到 Gemini 3.1 Pro 已经是第四代了。

但 Gemini 3.1 Pro 的多模态能力具体能处理到什么程度？上限在哪？哪些类型的多模态任务做得好、哪些做不好？这些信息散落在 Vertex AI 技术文档和 Model Card 的不同章节里。我花时间整理了一份 Gemini 3.1 Pro 比较完整的多模态能力边界图。

视频处理：有声和无声上限不同

这是最容易踩坑的一个区别。

无音频视频： 最长约 1 小时。每个 prompt 最多 10 个视频。 带音频视频： 最长约 45 分钟。

为什么带音频的视频上限更短？因为音频流额外占 token。视频本身按帧采样（默认每帧 70 个 token），音频流还要再算一份。同样长度的视频，带音频的 token 消耗大约是无音频版本的 1.5 到 2 倍。100 万 token 的上下文窗口总量不变，音频多吃了 token，视频长度就得缩短。

如果你有一段 55 分钟的带声会议录屏要分析，有两个绕过方案：一是先把音频剥离再传视频（这样可以用 1 小时的上限），二是把视频分成两段分别传。

视频格式支持： MP4、WebM、QuickTime（MOV）、FLV、MPEG、WMV、3GPP。基本上主流格式都覆盖了。

帧采样机制： 视频不是逐帧分析的，而是按一定间隔抽帧。默认每帧按 70 个 token 计算。对于一段 30fps 的 10 分钟视频（共 18000 帧），模型实际看到的帧数远少于 18000。具体抽帧间隔 Google 没有在文档里公布，但从 token 消耗来看大概是每 1-2 秒抽一帧。

这意味着快速变化的场景（比如体育比赛的关键瞬间、监控视频里一闪而过的人影）可能被抽帧漏掉。需要精确到帧级别的分析任务，Gemini 3.1 Pro 目前做不了。

音频处理：8.4 小时

音频的上限比视频宽得多：每个 prompt 最长约 8.4 小时（或 100 万 token）。但有一个限制——每个 prompt 只能放一个音频文件。如果你需要分析多段音频，要么合并成一个文件，要么分开发送多次请求。

支持格式： AAC、FLAC、MP3、M4A、MPEG、OGG、PCM、WAV、WebM。

能力范围： 官方文档明确列了三项——音频摘要、转录、翻译。也就是说模型不只能"听到"音频内容，还能直接做语音转文字。对于会议录音、播客内容、电话录音的批量处理场景比较有用。

一个 8.4 小时音频的处理成本：按 100 万 token 输入计算是 $2，加上推理和输出可能到 $2.5-3。和专门的语音转写服务（比如 Google Speech-to-Text 或 Whisper API）比，价格差不多，但 Gemini 3.1 Pro 可以在转写的同时做摘要和分析，这是纯转写服务做不到的。

图片处理：3000 张

每个 prompt 最多 3000 张图片。默认每张按 1120 个 token 计算。

上传限制：

通过 API 或 AI Studio 控制台直接上传：每张最大 7MB
通过 Google Cloud Storage 传入：每张最大 30MB

格式： PNG、JPEG、WebP、HEIC、HEIF。

3000 张图片 × 1120 token/张 = 336 万 token，超过了 100 万 token 的上下文窗口。所以实际能塞进去的图片数量取决于你的其他输入（prompt 文本、system prompt 等）占了多少 token。如果只传图片不带文字，大约能放 890 张左右。

一个常见的使用场景是电商图片分类——传入大量商品图，让模型做分类或者生成描述。这类任务如果图片量很大，建议分批处理，每批控制在 500 张以内，避免逼近 token 上限后影响理解质量。

PDF 处理：3000 页

PDF 最多 3000 页，每个 prompt 最多 3000 个 PDF 文件。每页默认 560 token。

文件大小限制：

直接上传：每个文件 7MB
API 或 Cloud Storage：每个文件 50MB

OCR 的问题： 默认不做 OCR。这意味着如果你传的是扫描版 PDF（图片形式的，不是可选择文字的），模型会把每一页当成图片来"看"，而不是把文字提取出来"读"。扫描件的处理效果比文字版 PDF 差一截，特别是扫描质量不好、或者有手写内容的情况下。

如果你的 PDF 是扫描件，建议先用 OCR 工具（比如 Tesseract 或者 Google Cloud Vision OCR）预处理成文字版，再传给 Gemini。

"原生多模态"到底意味着什么

这个概念被反复提到但很少被解释清楚。技术上的区别是这样的：

拼接式多模态（大多数竞品的做法）： 视觉部分有一个单独的视觉编码器（比如 ViT），音频部分有一个单独的音频编码器（比如 Whisper 的编码器），各个编码器把自己模态的内容处理成 embedding，再拼接到文本 transformer 的输入序列里。不同模态之间的"理解"是在 transformer 层面完成的，而编码阶段是独立的。

原生多模态（Gemini 的做法）： 所有模态直接进入同一个 transformer，不经过独立的编码器。这样做的好处是模态之间的交叉理解可以在更早的层级发生。

实际区别在哪？举一个例子：你传一段会议视频（带音频），同时传入会议议程的文字版。在原生多模态架构下，模型可以把"视频里第 23 分钟有人站起来在白板上画了一个图"和"议程里第三项讨论架构设计"关联起来。拼接式架构不是做不到这件事，但关联的精度可能不如原生架构。

不过这些是理论上的优势。实际表现还是得看基准数据。

Gemini 3.1 Pro 多模态基准数据：理解能力并没有进步

这是我觉得这次升级里最值得说的一个点。

MMMU-Pro（多模态理解推理基准）：Gemini 3.1 Pro 80.5%，Gemini 3 Pro 81.0%。

下降了 0.5%。虽然在统计误差范围内，但至少说明 3.1 Pro 这次升级没有在多模态理解上做任何改进。升级的重心全在文字推理（ARC-AGI-2 从 31.1% 跳到 77.1%）。

和竞品比：GPT-5.2 79.5%，Claude Opus 4.6 73.9%。Gemini 3.1 Pro 在多模态理解上仍然领先，但这个领先是继承自 Gemini 3 Pro 的，不是 3.1 Pro 新带来的。

实际能做什么、做不了什么

能做的：

会议视频分析——传一段 45 分钟的带音频会议录屏，让模型提取关键决策、待办事项、行动项。不用事先做转写，直接传视频。对于没有会议纪要系统的团队来说很实用。

技术文档批量处理——一次传几百页包含图表和公式的 PDF，做跨文档摘要或数据提取。对需要处理大量技术报告的研究人员和分析师有帮助。

多格式混合分析——同时传文字说明、架构图截图和录制的讲解音频，让模型做综合分析。比分三次传入再手动拼合高效。

产品图片分类和描述——批量传入商品图片，生成分类标签和文字描述。电商场景常见。

做不了或做不好的：

逐帧视频分析——抽帧机制会漏掉帧间的快速变化。安防监控、体育赛事回放这类需要精确到帧的任务不适合。

视频时间戳精确定位——"视频第 14 分 32 秒说了什么"这类问题，模型可能给出近似答案但不保证精确。

扫描件 PDF 的精确文字提取——默认不做 OCR，扫描质量差的文档效果有限。

大批量图片的精细分析——超过 500-600 张图片时，接近 token 上限，模型对后面图片的理解质量可能下降（类似"迷失在中间"的问题，只不过是多模态版本）。

参考资料

Gemini 3.1 Pro Vertex AI 技术文档（视频/音频/图片/PDF 规格），Google Cloud：https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro
Gemini 3.1 Pro Model Card（MMMU-Pro 数据），Google DeepMind：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Gemini 多模态能力示例，Google Developers Blog：https://developers.googleblog.com/en/7-examples-of-geminis-multimodal-capabilities-in-action
Gemini 3.1 Pro 功能与基准分析，CometAPI：https://www.cometapi.com/gemini-3-1-pro-feature-benchmark-performance-and-price-analysis/
How to Use Gemini 3.1 Pro API（多模态示例），CometAPI：https://www.cometapi.com/how-to-use-gemini-3-1-pro-api/