DeepSeek V4为什么引发热议，核心升级和争议点是什么

DeepSeek V4 预览版发布后，围绕它的讨论很快升温。很多人最关心的其实不是“它是不是又变得更大了”，而是几个更实际的问题：DeepSeek V4 到底升级在哪？为什么这次讨论这么密？它是真正把开源模型往前推了一步，还是又一轮主要靠 benchmark 带动的热闹？

如果把这轮热议压缩一下，DeepSeek V4 之所以被反复讨论，主要是因为它同时把四件事摆到了台面上：双模型产品线、1M 上下文、更低的价格冲击，以及更明确的推理模式。

DeepSeek V4 这次发了什么

这次公开的是两款预览版模型：

DeepSeek-V4-Pro：1.6T 总参数，49B 激活参数
DeepSeek-V4-Flash：284B 总参数，13B 激活参数

两者都是 MoE 架构，支持 1M 上下文，开放权重，并且已经可以通过 API 调用。

这意味着 DeepSeek 这次不是只发了一个“最强模型”，而是直接给出了更清楚的产品分层：

Pro 负责能力上限
Flash 负责成本和吞吐

这一点很重要。很多模型看起来很强，但一到真实选型阶段就会卡在成本、延迟和迁移难度上。DeepSeek V4 这次之所以容易引发讨论，很大程度上就是因为它不像一次单纯的技术秀，而更像一次面向落地的产品发布。

DeepSeek V4 的核心升级是什么

如果只看表面，大家最容易记住的是 1.6T 和 1M 这两个数字。

但从官方模型卡来看，真正值得注意的升级点，不是“更大”，而是“更能不能用”。

1. 长上下文效率

DeepSeek 这次强调的是新的混合注意力架构，把 Compressed Sparse Attention 和 Heavily Compressed Attention 组合在一起。

官方给出的说法是，在 1M 上下文下，V4-Pro 的单 token 推理 FLOPs 只要 V3.2 的 27%，KV Cache 只要 10%。这个数字后面当然还要看第三方验证，但它说明了一件事：DeepSeek 想讲的不是“我也能报 1M 上下文”，而是“我想把 1M 做成一个更接近真实可用的能力”。

2. 训练稳定性和效率

模型卡里还提到了 mHC 和 Muon Optimizer。

前者主要是让超大模型训练更稳，后者对应训练效率和收敛。说白了，DeepSeek 这次不是只在后训练上打补丁，而是从架构到训练一起做了调整。

3. 推理模式更明确

V4 这次还把模式分得更清楚。模型卡里给了 Non-think、Think High、Think Max 三档，API 文档里也给了 thinking 开关和 reasoning_effort 控制。

这对开发者和团队来说很实用。因为不是所有请求都值得走最高推理成本，把模式拆清楚之后，系统接入会更灵活。

为什么这次热议里，很多人反而最关心 Flash

照理说，最吸引眼球的应该是 1.6T 的 Pro。

但这两天的讨论里，真正被反复提起的，反而是 Flash。

原因很简单：它太便宜了。

官方定价显示：

V4-Flash：输入每百万 token 0.14 美元，输出 0.28 美元
V4-Pro：输入每百万 token 1.74 美元，输出 3.48 美元

这意味着很多团队在做选型时，问题会直接变成“Flash 到底够不够用”。而从官方 benchmark 来看，Flash 和 Pro 之间虽然有差距，但并没有大到像参数差距那样夸张。也正因为这样，很多人觉得真正可能改变市场节奏的，不一定是 Pro 的能力上限，而是 Flash 的价格和可用性组合。

DeepSeek V4 的争议点在哪

热议不等于一边倒吹捧。DeepSeek V4 这次最明显的争议，也很现实。

1. 它确实很强，但不是所有项目都第一

从官方表看，V4-Pro 在代码、部分数学和 agent 场景上成绩很硬，这点没问题。

但它并不是每项都全面领先。比如一些知识类和综合类 benchmark 上，它并没有形成绝对优势。也就是说，现在就把 DeepSeek V4 写成“全面碾压闭源前沿模型”，还是太早了。

2. 1M 上下文到底值不值那个成本

超长上下文听起来很强，但最后还是要回到实际问题：你真的需要一次喂这么多上下文吗？你付出的推理成本和延迟，是不是换回了真实价值？

这个问题，不是发布当天就能回答的，还得看真实场景里的反馈。

3. 官方成绩能不能被第三方大体验证

任何模型发布都绕不开这个问题。官方 benchmark 当然有参考价值，但真正决定市场判断的，往往还是外部实测和长期反馈。

DeepSeek V4 这次真正说明了什么

如果一定要用一句话概括，我会说：DeepSeek V4 的意义，不只是它又发了一个更强的开源模型，而是它把开源模型竞争重新拉回到了“怎么进入真实工作流”这条线上。

过去大家更爱讨论谁更聪明、谁更会答、谁又刷新了哪个榜单。现在越来越多人开始看另一件事：谁更便宜、谁更能接流程、谁更适合长期放进系统里跑。

DeepSeek V4 这次最有价值的地方，就在于它不是只在讲能力，而是在同时讲能力、价格和产品形态。

结语

DeepSeek V4 为什么会引发热议？因为它让很多人重新认真看待一个问题：开源模型离“够强、够便宜、够能干活”这个临界点，是不是真的又近了一步。

现在还不能直接说答案已经完全确定，但至少可以说，这次不是普通迭代。

接下来最值得继续看的，还是那三件事：第三方评测会不会跟上、Flash 会不会迅速跑进更多场景、1M 上下文会不会真正变成生产能力。

如果这三件事里有两件站住，DeepSeek V4 这次的热度就不会只是短期话题。

参考链接

DeepSeek-V4-Pro 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Flash 模型卡: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing
DeepSeek Thinking Mode: https://api-docs.deepseek.com/guides/thinking_mode
社区首轮讨论 1: https://news.ycombinator.com/item?id=47885003
社区首轮讨论 2: https://news.ycombinator.com/item?id=47885230
Reuters 报道: https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/
外媒解读: https://thenextweb.com/news/deepseek-v4-pro-flash-launch-open-source