DeepSeek V4预览版发布后,最值得关注的不是参数

DeepSeek V4预览版发布后,最值得关注的不是参数

DeepSeek V4 预览版一出来,最容易被传播的当然是那几个大数字:1.6T 参数、1M 上下文、双模型线、开权重。

但如果只盯着这些数字看,反而容易错过这次发布真正有意思的地方。

我这两天把公开资料和首轮讨论看了一圈,最大的感受不是“DeepSeek 又把参数堆大了”,而是它这次明显想换个答题方式:开源模型不只是能不能更强,而是能不能更像一个真正能接入工作流的产品。

DeepSeek 这次发的,不只是一个旗舰模型

这次公开的是两款预览版:

  • DeepSeek-V4-Pro
  • DeepSeek-V4-Flash

前者是更强的旗舰,后者是更便宜、更适合高频调用的版本。两者都是 MoE 架构,都支持 1M 上下文,也都已经开放权重并能通过 API 调用。

这件事为什么重要?因为它说明 DeepSeek 这次不是只想秀一次能力,而是开始认真考虑不同使用场景。

很多模型发布,热度过去得很快,原因不在能力不够,而在于只有“最强版”这一条路。大家看得很热闹,真到落地时却发现成本、吞吐和迁移路径都不太友好。

V4 这次不一样。它一开始就把“高能力”和“高性价比”拆开了。

这轮讨论最热的点,其实不是 Pro,而是 Flash

表面上看,最吸睛的是 1.6T 的 Pro。

但真正让圈子里反复讨论的,反而是 Flash。

原因很现实。Flash 太便宜了。官方定价里,Flash 每百万输入 token 0.14 美元、输出 0.28 美元;Pro 则是输入 1.74 美元、输出 3.48 美元。

这个价差意味着,大多数团队在做选型时,最后问的很可能不是“谁最强”,而是“Flash 到底够不够用”。

而从官方 benchmark 来看,Flash 和 Pro 虽然有差距,但并不是全面拉开到两个世界。也正因为这样,很多人会开始重新估算这件事:如果 Flash 已经够用,那它带来的市场冲击,可能比 Pro 的跑分更大。

这也是 DeepSeek V4 这次特别容易引发讨论的地方。它不是只给了一个可以挂在海报上的强模型,而是给了一个很可能真的跑进业务里的低价模型。

真正值得看的升级点,是长上下文开始往“可用”走

现在长上下文已经不算新鲜词了,很多模型都能报很夸张的数字。

但真正的问题一直没变:你给我一个 1M 上下文,到底是为了展示,还是为了让我在真实场景里敢用?

DeepSeek 这次想回答的,显然是后者。

在模型卡里,它重点强调的是长上下文效率。按官方说法,V4-Pro 在 1M 上下文下,单 token 推理 FLOPs 只要 V3.2 的 27%,KV Cache 只要 10%。这个数字后面当然还要看第三方验证,但至少它说明了 DeepSeek 的思路:不是只想宣称“我也有 1M”,而是想把 1M 做成一个不至于贵到离谱的能力。

对真实应用来说,这比单纯的参数升级更重要。因为一旦上下文真的能装得更多、成本又压得下来,模型就有机会吃下更完整的任务背景,而不是总靠用户一层层拆。

它确实强,但还没到“表格横扫一切”

这轮热议里还有一个很明显的现象:支持者和质疑者都不少。

支持者看到的是,V4-Pro 在代码、部分数学和 agent 任务上确实已经非常能打,开源模型的上限又被往前推了一截。

质疑者盯着的则是另一面:它并不是每一项都第一,有些 benchmark 上也没有形成绝对领先。换句话说,现在就把它写成“闭源前沿模型已经全面被掀翻”,那还是太早了。

我觉得这反而是件好事。因为一款模型最怕的不是争议,而是把话说得太满。DeepSeek V4 预览版现在最真实的位置,也许正是“已经强到没人再把它当陪跑,但还没有强到所有人都闭嘴”的那个阶段。

也正因为还存在这个缝隙,讨论才会这么密。

这次发布真正传递出的,是一种产品信号

如果要把这次 V4 预览版浓缩成一句话,我会说:DeepSeek 正在把开源模型从“跑分竞争”往“工作流竞争”上推。

这次最值得注意的,不是某一项成绩,而是它把几件事一起摆到了台面上:

  • 双模型产品线
  • 明确的推理模式
  • 1M 上下文
  • 更激进的定价
  • 可迁移的 API 路径

这说明它已经不满足于只做一个“很强的模型”,而是开始试图成为一个更容易进入真实系统的选择。

最后

DeepSeek V4 预览版为什么会在这两天引发这么多讨论?因为大家看到的已经不只是“又一个新模型”,而是开源模型竞争方向可能正在发生变化。

接下来最该看的,也不是谁在标题里喊得更响,而是三件更具体的事:

  1. 第三方评测能不能大体验证官方说法
  2. Flash 会不会因为价格优势被更多团队接入
  3. 1M 上下文到底是展示能力,还是能长期跑进生产的能力

如果这三件事里有两件站住,DeepSeek V4 这次就不会只是一轮热闹。

参考链接

  1. DeepSeek-V4-Pro 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
  2. DeepSeek-V4-Flash 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
  3. DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing
  4. DeepSeek Thinking Mode: https://api-docs.deepseek.com/guides/thinking_mode
  5. 社区首轮讨论 1: https://news.ycombinator.com/item?id=47885003
  6. 社区首轮讨论 2: https://news.ycombinator.com/item?id=47885230
  7. Reuters 报道: https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/
  8. 外媒解读: https://thenextweb.com/news/deepseek-v4-pro-flash-launch-open-source
← 返回博客列表