DeepSeek V4一发,为什么大家先盯上了Flash

DeepSeek V4一发,为什么大家先盯上了Flash

DeepSeek V4 预览版出来之后,很多人第一眼会被 1.6T 总参数和 1M 上下文吸走注意力。

可这两天讨论最凶的,真不一定是 Pro。

反而是 Flash。

这事挺有意思。它说明大家现在看模型,已经不只是看“谁更强”,而是在看“谁更像一个真能跑进场景里的东西”。

DeepSeek V4 这次发的,不是一款,而是两款

先把信息摆清楚。

这次公开的是:

  • DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数
  • DeepSeek-V4-Flash:284B 总参数,13B 激活参数

两者都是 MoE 架构,都支持 1M 上下文,都已经开放权重,也都能通过 API 调用。

光看这个组合,你就能感觉出来,DeepSeek 这次不是只想秀一下实力,而是开始认真做产品线了。

一个负责能力上限,一个负责价格和吞吐。

这和过去那种“先发一个最强版,剩下的以后再说”不太一样。

为什么大家先盯上了 Flash

原因特别现实:它太便宜了。

官方定价是这样的:

  • V4-Flash:输入每百万 token 0.14 美元,输出 0.28 美元
  • V4-Pro:输入每百万 token 1.74 美元,输出 3.48 美元

这个差距一摆出来,很多人脑子里冒出来的第一个问题根本不是“Pro 有多猛”,而是“Flash 到底够不够用”。

因为真到落地的时候,团队买的往往不是最强,而是最划算。

尤其是在现在这个阶段,模型竞争已经不是单纯拼跑分了,而是开始拼:

  • 能不能接进现有系统
  • 成本能不能接受
  • 高并发时会不会太贵
  • 真正跑起来之后返工多不多

一旦从这个角度看,Flash 的存在感立刻就不一样了。

Pro 当然强,但这次最有冲击力的可能不是它

V4-Pro 强不强?当然强。

从官方 benchmark 看,它在代码、部分数学和 agent 任务上确实已经到了非常靠前的位置。像 LiveCodeBenchCodeforcesSWE-Bench Verified 这些指标,都能看出它不是随便涨了一点点。

但问题也在这儿。

它强,大家预期本来就高。一个旗舰模型很强,很多人会觉得“合理”。

真正让人重新算账的,是 Flash 这种东西。

因为它不像是拿来挂海报的,更像是拿来跑业务的。

如果 Flash 在真实任务里能撑住大部分场景,那它对市场的影响,未必会比 Pro 小。

这次 V4 最该看的,其实是“1M 上下文到底有没有往可用走”

现在长上下文已经不是新鲜词了,很多模型都能报大数字。

可大家越来越清楚一件事:报得出来,不代表用得起。

DeepSeek 这次在模型卡里强调的重点,是长上下文效率。按官方说法,V4-Pro 在 1M 上下文下,单 token 推理 FLOPs 只要 V3.2 的 27%,KV Cache 只要 10%。

这个数字后面当然还要看第三方验证,但它至少说明了一个方向:DeepSeek 不是只想说“我也有 1M”,而是想把 1M 做成一个更像默认能力的东西。

这件事一旦成立,影响其实不小。因为真实任务里最麻烦的,不是模型少写一段代码,而是它总得让你自己拆上下文。文档、日志、历史记录、调用链、配置说明一多,很多模型就开始吃不消。

所以这轮 V4 真正值钱的,不只是参数,而是它在试图回答一个更难的问题:长上下文到底能不能变成真的工作能力。

当然,也别吹过头

DeepSeek V4 这次热度高,不代表它已经没有争议。

首先,它并不是所有项目都第一。官方表格里,有些 benchmark 它很强,有些也没有绝对领先。所以现在就把它写成“全面掀翻闭源前沿模型”,多少还是有点早。

其次,1M 上下文到底值不值那个成本,还得看真实场景。很多人现在最关心的,不是它能不能挂这个数字,而是账单和效果能不能对得上。

最后,官方成绩最终还是要等更多第三方体验来兜底。模型发布当天,表格永远最好看,真正的分水岭往往出现在发布后一周。

这次讨论最说明问题的地方

如果一定要说这轮热议说明了什么,我觉得答案挺简单:大模型竞争,真的越来越不像“智商竞赛”了。

现在大家看的,是谁更像一个能进场景、能接流程、能按成本跑起来的系统。

DeepSeek V4 这次最有意思的地方,也就在这儿。它不是只给了一个更强的模型,而是把能力、价格、产品线和迁移路径一起摆出来了。

这就让讨论一下子从“它有多猛”变成了“它会不会真的跑起来”。

最后

DeepSeek V4 一发,为什么大家先盯上了 Flash?

因为它让人看到了一种更现实的可能:开源模型的下一轮竞争,未必是谁把天花板抬得最高,而是谁先把“够强、够便宜、够能干活”这三件事凑齐。

如果 Flash 真能跑进更多任务里,那 DeepSeek V4 这次最厉害的地方,可能不是 Pro 帮它赢了面子,而是 Flash 帮它拿了市场。

参考链接

  1. DeepSeek-V4-Pro 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
  2. DeepSeek-V4-Flash 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
  3. DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing
  4. DeepSeek Thinking Mode: https://api-docs.deepseek.com/guides/thinking_mode
  5. 社区首轮讨论 1: https://news.ycombinator.com/item?id=47885003
  6. 社区首轮讨论 2: https://news.ycombinator.com/item?id=47885230
  7. Reuters 报道: https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/
← 返回博客列表