TL;DR — 关键 3 点
- 1.6T MoE,激活 49B:DeepSeek-V4-Pro 在保持旗舰参数规模的同时,把单次推理 FLOPs 压到 V3.2 的 27%、KV 缓存压到 10%——靠的是新提出的 DSA(DeepSeek Sparse Attention) + token-wise 压缩,让 1M 上下文真正实用。
- 开源阵营首次正面追上闭源前沿:在 LiveCodeBench、SWE-bench Verified、Codeforces 上 V4-Pro 与 Claude Opus 4.6 / Gemini 3.1-Pro 同档;在 MMLU-Pro、GPQA Diamond 等知识/科学题上仍落后 Gemini 3.1-Pro 约 3-6 个月身位。
- 价格比 OpenAI 便宜 9 倍,比 Claude 便宜 7 倍,且全面押注华为昇腾 950 推理——这次不只是模型发布,而是中国 AI 基础设施"去 Nvidia 化"的第一次工业级实证。
1. 发布背景:DeepSeek V4 在 2026 路线图中的位置
2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列预览版(preview),包括 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个变体,权重已上传至 HuggingFace,许可证为 MIT,可商用。这是 DeepSeek 自 2025 年初以 V3 震动行业以来首个跨大版本更新——V3 → V3.1 → V3.2 都是同一架构家族的迭代,而 V4 引入了核心架构改动:DSA 稀疏注意力。
这次发布的时间点很微妙。本周(2026 W17)国内开源大模型阵营高度密集——阿里 Qwen 3.5、智谱 GLM-5.1、Moonshot Kimi 新版均在最近 30 天内上线,DeepSeek 直接在 V4 中拿出 LiveCodeBench 93.5、Codeforces 3206 这类硬指标,意图非常明确:把"开源最强编码模型"标签从 Qwen-Coder 系列重新拿回来,并把价格门槛拉到比同级闭源便宜一个数量级。
更值得关注的是 Huawei 同期宣布对 V4 系列提供完整推理支持,并将通过昇腾 950 量产把 V4-Pro 价格继续下压。换句话说,V4 不只是一次模型升级,而是中国大模型产业链尝试构建"开源权重 + 国产芯片 + 低价 API"完整闭环的第一次工业级实证。
2. 核心规格速览
3. 架构创新:DSA 稀疏注意力是什么?
DeepSeek 在 V4 技术报告中把 DSA(DeepSeek Sparse Attention)作为最核心的架构改动。它解决的问题是:传统 Attention 在 1M 上下文下,KV 缓存与单步 FLOPs 都会随上下文长度近似平方膨胀,导致 1M 上下文虽然技术上能跑,但成本和延迟都不实用。
- 稀疏化 attention 计算:让每个 token 只与一个动态选出的"显著 token 子集"做 attention,而不是与全部上下文。子集的选取由模型自身学习——不是固定窗口(local attention)也不是 router(MoE 路由),而是基于内容的稀疏模式。
- Token-wise 压缩:在 KV 缓存层面,对历史 token 做按内容自适应的压缩,让"老" token 占用更少内存且不丢失关键语义。
两者叠加的实际效果:V4-Pro 在相同任务上单 token FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%;V4-Flash 更激进,FLOPs 10%、内存 7%。这意味着同样硬件上 V4 能多跑一个数量级的并发。
类比来看,DSA 在思路上与 Mistral 的 Sliding Window Attention、Anthropic 的 Constitutional AI Long Context、Mamba 系列的状态空间模型有相似处——都是"放弃全连接 attention 换取长上下文实用性"——但 DeepSeek 的工程化做得更彻底:从训练到推理整条链都按稀疏假设重写,而不是事后加一层压缩。这也是 V4 能把 1M 上下文做成"默认能力"而不是"特殊配置"的关键。
4. Benchmark 全面对比:V4-Pro vs GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1-Pro
以下是 DeepSeek V4-Pro(最高推理模式 Pro-Max)与三家闭源前沿模型的横向对比,数据来自 DeepSeek 官方技术报告与第三方复测的交集。绿色数字代表该项 V4-Pro 取得最优或并列最优,橙色为接近最优,红色为明显落后。
| Benchmark | DeepSeek V4-Pro | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1-Pro |
|---|---|---|---|---|
| LiveCodeBench(编码) | 93.5 | 88.8 | — | 91.7 |
| Codeforces Rating | 3,206 | — | 3,168 | — |
| SWE-bench Verified | 80.6 | 80.8 | — | 80.6 |
| MMLU-Pro(综合知识) | 87.5 | 89.1 | 87.5 | 91.0 |
| GPQA Diamond(科学推理) | 90.1 | 91.3 | 93.0 | 94.3 |
| Terminal-Bench 2.0(命令行 Agent) | 67.9 | 65.4 | 75.1 | 68.5 |
| HLE(Hard Logic Eval) | 37.7 | — | — | — |
怎么读这张表
- 编码与算法:V4-Pro 是当前开源最强,且与闭源前沿打成平手。LiveCodeBench 93.5、Codeforces 3206 同时领先 GPT-5.4 和 Gemini 3.1-Pro,SWE-bench Verified 与 Claude Opus 持平。
- 知识与科学题仍是短板。MMLU-Pro 落后 Gemini 3.5 个百分点,GPQA Diamond 落后 Gemini 4.2 个百分点——DeepSeek 自己也承认这部分 "落后 SOTA 约 3-6 个月"。
- 命令行 Agent(Terminal-Bench)追上 Claude/Gemini,但显著输给 GPT-5.4。GPT-5.4 的 75.1 在工具调用上仍然是单点最强。
结论是清晰的:V4-Pro 是"开源前沿",但还不是"绝对前沿"。如果你的业务核心是编码、算法、长文档处理,V4-Pro 在性能上已经没短板,并且价格便宜一个数量级;如果是面向科研问答、复杂 reasoning,闭源旗舰仍有优势,但差距在收窄。
5. 价格与可用性:成本结构性下沉
| 模型 | 输入 ($ / 1M tokens) | 输出 ($ / 1M tokens) | 上下文 | 许可 |
|---|---|---|---|---|
| DeepSeek V4-Pro | 1.74 | 3.48 | 1M | MIT 开源 |
| DeepSeek V4-Flash | 0.14 | 0.28 | 1M | MIT 开源 |
| OpenAI GPT-5.4 | ~10 | ~30 | 200K | 闭源 |
| Anthropic Claude Opus 4.6 | ~7.5 | ~25 | 500K | 闭源 |
| Moonshot Kimi (新版) | ~1.5 | ~4 | 200K | 闭源 |
| Alibaba Qwen-3.5-Max | ~0.8 | ~2.4 | 1M | 闭源 API(开源中等版本) |
V4-Pro 的输出价比 OpenAI 便宜约 9 倍,比 Claude 便宜约 7 倍;V4-Flash 输出价 $0.28/M,是 OpenAI 的 1/100。在国内开源阵营内部,V4-Flash 比 Qwen-3.5-Max 还要便宜 8-9 倍。
这不是"促销价"。结合上节的架构改动来看,V4 的低价是结构性的——MoE 激活效率改善 + DSA 减少 KV 缓存 + 昇腾 950 推理优化,三层杠杆叠加才让单 token 成本真正下降。后续 OpenAI/Claude 即便降价也很难追到这个区间。
6. 应用场景判断:什么时候该用 V4,什么时候不该
V4-Pro 是首选的场景
✓ 大型代码库重构、整库 review、多文件 refactor:1M 上下文 + LiveCodeBench/SWE-bench 顶级表现,V4-Pro 是当前最具性价比的"代码全局理解"模型。
✓ 长文档/PDF/合同分析:1M 上下文容得下整本书或几十份合同;token 成本只有 Claude 的 1/7。
✓ 批量化的 Agent 编排(成本敏感):如果你的 Agent 系统每天烧几千美元 token,V4-Pro 能直接砍掉 80% 的 LLM 成本。
V4-Flash 是首选的场景
✓ 规模化在线问答 / 客服:$0.28/M 输出价 + 1M 上下文,能放得下完整知识库 + 用户对话历史。
✓ 批处理流水线(数据清洗、摘要、翻译):在 Flash 体量下任务完成质量足够,且价格便宜到可以高并发跑全量。
✓ 本地化部署(160GB 权重):单台 8×A100 或 8×H100 节点可跑;Unsloth 量化版后可下放到 4×H100 甚至更小集群。
- 科研问答 / 复杂多步推理:GPQA Diamond 与 Gemini 3.1-Pro 仍有 4 个百分点差距;要做学术问答系统,闭源旗舰目前更稳。
- 需要 native function-calling 完整生态:V4 支持 OpenAI 兼容 function call,但围绕它的工具链(如 SDK、retry/timeout、结构化输出验证)远不如 OpenAI/Anthropic 成熟。
- 合规要求严格、需要"模型可审计"的领域:金融、医疗、法律生产环境,闭源旗舰有 SLA、企业合同与合规背书;DeepSeek 的开源虽然权重透明,但训练数据组合至今未完整披露。
- 追求绝对最优 reasoning:DeepSeek 自评"落后 SOTA 3-6 个月"——如果业务必须用最强推理(如复杂数学证明、奥赛题求解),等下一代或继续用 Gemini 3.1-Pro。
7. 接入方式:3 条主要路径
方式 A:DeepSeek 官方 API(最直接)
OpenAI 兼容协议,把 base_url 切到 DeepSeek 即可:
方式 B:OpenRouter(多家路由统一计费)
适合已经用 OpenRouter 做多模型 fallback 的团队,model 名为 deepseek/deepseek-v4-pro 或 deepseek/deepseek-v4-flash。代价是 OpenRouter 加约 5-10% 的路由溢价,但好处是同一个 API key 可以无缝在 V4-Pro / Claude / GPT-5 间切换 fallback。
方式 C:HuggingFace + vLLM 自部署
适合已经跑了 V3/V3.2 自部署、对数据合规敏感的团队。V4-Flash(160GB)单机 8×H100 即可;V4-Pro(865GB)需要 4-8 节点的高速互联集群。Unsloth 团队即将放出 GGUF 量化版,可进一步降低硬件门槛。
8. 与 W17 周报的关联:为什么 V4 印证了本周三个趋势
在本周 W17 周报里我们提出三个趋势——多模态生成进入工业部署、隐式推理挑战 CoT、Agent 训练系统化。DeepSeek V4 同时印证其中两条:
- "工业部署"信号:1M 上下文从"benchmark 噱头"变成"默认能力",且单 token 成本下降一个数量级——这是大模型从研究/Demo 阶段全面走向规模化生产的最关键基础设施变化。
- "Agent 训练系统化"信号:Codeforces 3206、Terminal-Bench 67.9、SWE-bench Verified 80.6 这组数字,意味着 V4 不再只是"会写代码",而是能在真实工程环境里持续推进任务——也就是上周 W16 周报里讨论过的 AiScientist / OccuBench 那条"长时程 Agent 工程化"的延伸。
第三个趋势(多模态隐式推理)V4 暂时不涉及——V4 是纯文本模型,多模态版本预计在 V4.5 或 V5 中发布。这也是 DeepSeek 一贯的策略:每代专注做透一个突破口,不做多模态全家桶。
9. 一个被低估的信号:开源阵营首次"成本反超"闭源
过去三年的开源大模型故事一直是"性能逐渐追上闭源"。V4 改变了这条主线——它做的是性能 80% 持平 + 成本反超。
用 LiveCodeBench 这个最能反映工程现实的代码基准做个粗略测算:V4-Pro(93.5 分,$3.48/M 输出)的"分/美元"是 27 分;Claude Opus 4.6(88.8 分,$25/M)是 3.6 分。换算到同样预算下,V4-Pro 能产出大约 7.5 倍于 Claude 的高质量代码 token。
当一个开源模型在主战场(编码)上既性能持平又成本便宜 7-9 倍时,闭源厂商的护城河就只剩两条:① 知识深度(GPQA / MMLU 仍领先);② 工具链与生态(function calling SDK 成熟度)。前者会被时间冲淡,后者是 Anthropic / OpenAI 接下来一年最该投入的方向。
10. 总结与下一步观察点
DeepSeek V4 是一次同时做对了三件事的发布:架构层面用 DSA 真正让 1M 上下文实用;性能层面把开源拉到与 Claude Opus 4.6 / Gemini 3.1-Pro 同档;商业层面用结构性低价 + 昇腾绑定改变了大模型基础设施的成本曲线。
未来 30 天最值得跟踪的 4 个观察点:
- 独立第三方 benchmark 复测:当前所有数字仍以官方为主,等 LMSys、Aider、Vellum 等独立榜单数据进来。
- Unsloth 量化版本 + 本地部署生态:如果 V4-Flash 量化后能在单卡 H100 跑通,开源生态会迎来一轮"自部署旗舰"小高潮。
- OpenAI/Anthropic 的价格回应:Claude 3.5/4.x 已经多次降价;GPT-5.4 是否会跟进将决定 V4 的价格优势能维持多久。
- 昇腾 950 量产节奏:DeepSeek 表示一旦昇腾 950 量产将进一步下调价格——这是中国 AI 基础设施"去 Nvidia 化"能否真正完成的关键里程碑。
想跟踪每天的 AI 模型与论文热度?Paper Collector 自动采集 HuggingFace 论文与开源项目,每日生成中文摘要。
访问 Paper Collector本文写作信息源:DeepSeek 官方 V4 技术报告与 release notes、HuggingFace 模型卡、Simon Willison 实测笔记、Bloomberg、CNBC、Fortune、MIT Tech Review、Macaron benchmark 整理。本文于 2026-04-25 撰写,部分独立 benchmark 数字仍在第三方复测中,价格与可用性以官方公告为准。趋势判断代表团队观点,仅供参考。