把一小时视频扔给 Gemini 3.1 Pro,它能做什么,不能做什么
"原生多模态"这个说法 Google 用了很久,但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入,听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里,把它们挖出来才能知道实际能做什么。
视频:有声和无声的上限不一样
这是我觉得最值得单独说的一点。
- 无音频视频:最长约 1 小时
- 带音频的视频:最长约 45 分钟
带音频的视频比纯视觉视频的 token 消耗更大,所以上限低一些。如果你想分析一段 55 分钟的带声视频,要么静音再传,要么分段处理。
每个 prompt 最多 10 个视频文件。视频按帧采样,默认每帧 70 个分辨率 token。
支持的格式:video/x-flv、video/quicktime、video/mpeg、video/mp4、video/webm、video/wmv、video/3gpp。
音频:8.4 小时
音频的上限比视频大得多:每个 prompt 最长约 8.4 小时,或者 100 万 token。每个 prompt 只能放一个音频文件。
支持:AAC、FLAC、MP3、M4A、MPEG、OGG、PCM、WAV、WebM。
用途上,官方文档写了:音频摘要、转录、翻译。也就是说不只是听,还能直接处理语音内容做转写。
图片:3000 张
每个 prompt 最多 3000 张图片。默认每张按 1120 个分辨率 token 计算。
直接上传(API 或 AI Studio 控制台)每张最大 7MB,通过 Google Cloud Storage 传入最大 30MB。
格式:PNG、JPEG、WebP、HEIC、HEIF。
PDF:3000 页
PDF 最多 3000 页,每个 prompt 最多 3000 个文件。默认分辨率 560 token/页。
不默认做 OCR 扫描件处理,所以如果你传的是扫描版 PDF(而不是文字 PDF),内容识别效果可能有限。
为什么"原生多模态"在这里有实际意义
多数多模态模型的内部架构是分开处理不同模态的:有单独的视觉编码器、音频编码器,再拼到文本 transformer 里。Gemini 3.1 Pro 的架构是把所有模态统一在一个 transformer 里,不依赖分开的编码器。
这个差别在实践中体现在两个地方。一个是模态之间的交叉理解——比如你传一段视频,同时提供转录稿,模型可以把画面和对话内容关联起来分析,而不是各看各的。另一个是长视频分析的一致性,整段视频在一个上下文窗口内处理,不用分段后再手动拼合。
不过这里也有一个边界:MMMU-Pro(多模态理解推理)基准上,Gemini 3.1 Pro 得了 80.5%,Gemini 3 Pro 得了 81.0%,反而下降了 0.5%。这说明这次升级的重点不在多模态理解本身,而在文字推理。多模态能力是继承自 Gemini 3 Pro,没有明显提升。
实际能做什么
根据 Google 自己的演示和文档,几个比较有意思的实际用法:
会议视频分析。 传一段 45 分钟的会议录屏(带音频),让模型提取决策事项、待办、关键讨论。不用先做转写,直接传视频。
技术文档批量处理。 一次传几百页 PDF(包括有图表的那种),让模型做跨文档摘要或者数据提取。对有大量技术报告要处理的场景有用。
多格式合并分析。 同时传文字说明、图表截图、相关音频,让模型做综合分析。比分开传然后手动整合效率要高。
不太适合的:需要精确逐帧分析、或者对视频时间戳做精确定位的任务,按帧采样的方式会漏掉信息。
参考资料
- Gemini 3.1 Pro on Vertex AI 技术文档(视频、音频、图片规格),Google Cloud:https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro
- Gemini 3.1 Pro Model Card(MMMU-Pro 评测结果),Google DeepMind:https://deepmind.google/models/model-cards/gemini-3-1-pro/
- 7 examples of Gemini's multimodal capabilities,Google Developers Blog:https://developers.googleblog.com/en/7-examples-of-geminis-multimodal-capabilities-in-action
- Gemini 3.1 Pro feature analysis,CometAPI:https://www.cometapi.com/gemini-3-1-pro-feature-benchmark-performance-and-price-analysis/