TL;DR — 关键 3 点

1. 发布背景:DeepSeek V4 在 2026 路线图中的位置

2026 年 4 月 24 日,DeepSeek 正式发布 V4 系列预览版(preview),包括 DeepSeek-V4-ProDeepSeek-V4-Flash 两个变体,权重已上传至 HuggingFace,许可证为 MIT,可商用。这是 DeepSeek 自 2025 年初以 V3 震动行业以来首个跨大版本更新——V3 → V3.1 → V3.2 都是同一架构家族的迭代,而 V4 引入了核心架构改动:DSA 稀疏注意力。

这次发布的时间点很微妙。本周(2026 W17)国内开源大模型阵营高度密集——阿里 Qwen 3.5、智谱 GLM-5.1、Moonshot Kimi 新版均在最近 30 天内上线,DeepSeek 直接在 V4 中拿出 LiveCodeBench 93.5、Codeforces 3206 这类硬指标,意图非常明确:把"开源最强编码模型"标签从 Qwen-Coder 系列重新拿回来,并把价格门槛拉到比同级闭源便宜一个数量级

更值得关注的是 Huawei 同期宣布对 V4 系列提供完整推理支持,并将通过昇腾 950 量产把 V4-Pro 价格继续下压。换句话说,V4 不只是一次模型升级,而是中国大模型产业链尝试构建"开源权重 + 国产芯片 + 低价 API"完整闭环的第一次工业级实证

2. 核心规格速览

V4-Pro 总参 / 激活
1.6T / 49B
MoE 架构,权重 865 GB
V4-Flash 总参 / 激活
284B / 13B
权重 160 GB,可单机推理
上下文长度
1,000,000 tokens
两个变体相同,DSA + token-wise 压缩支撑
训练数据量
33T / 32T tokens
Pro / Flash,预训练规模相当
许可证
MIT
商用、微调、二次分发均可
训练算力
~16,000 Hopper GPU
总成本约 5.6M 美元,效率较 V3 翻倍

3. 架构创新:DSA 稀疏注意力是什么?

DeepSeek 在 V4 技术报告中把 DSA(DeepSeek Sparse Attention)作为最核心的架构改动。它解决的问题是:传统 Attention 在 1M 上下文下,KV 缓存与单步 FLOPs 都会随上下文长度近似平方膨胀,导致 1M 上下文虽然技术上能跑,但成本和延迟都不实用

DSA 的两个核心机制:
  1. 稀疏化 attention 计算:让每个 token 只与一个动态选出的"显著 token 子集"做 attention,而不是与全部上下文。子集的选取由模型自身学习——不是固定窗口(local attention)也不是 router(MoE 路由),而是基于内容的稀疏模式。
  2. Token-wise 压缩:在 KV 缓存层面,对历史 token 做按内容自适应的压缩,让"老" token 占用更少内存且不丢失关键语义。

两者叠加的实际效果:V4-Pro 在相同任务上单 token FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%;V4-Flash 更激进,FLOPs 10%、内存 7%。这意味着同样硬件上 V4 能多跑一个数量级的并发。

类比来看,DSA 在思路上与 Mistral 的 Sliding Window Attention、Anthropic 的 Constitutional AI Long Context、Mamba 系列的状态空间模型有相似处——都是"放弃全连接 attention 换取长上下文实用性"——但 DeepSeek 的工程化做得更彻底:从训练到推理整条链都按稀疏假设重写,而不是事后加一层压缩。这也是 V4 能把 1M 上下文做成"默认能力"而不是"特殊配置"的关键。

4. Benchmark 全面对比:V4-Pro vs GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1-Pro

以下是 DeepSeek V4-Pro(最高推理模式 Pro-Max)与三家闭源前沿模型的横向对比,数据来自 DeepSeek 官方技术报告与第三方复测的交集。绿色数字代表该项 V4-Pro 取得最优或并列最优,橙色为接近最优,红色为明显落后。

Benchmark DeepSeek V4-Pro Claude Opus 4.6 GPT-5.4 Gemini 3.1-Pro
LiveCodeBench(编码) 93.5 88.8 91.7
Codeforces Rating 3,206 3,168
SWE-bench Verified 80.6 80.8 80.6
MMLU-Pro(综合知识) 87.5 89.1 87.5 91.0
GPQA Diamond(科学推理) 90.1 91.3 93.0 94.3
Terminal-Bench 2.0(命令行 Agent) 67.9 65.4 75.1 68.5
HLE(Hard Logic Eval) 37.7

怎么读这张表

结论是清晰的:V4-Pro 是"开源前沿",但还不是"绝对前沿"。如果你的业务核心是编码、算法、长文档处理,V4-Pro 在性能上已经没短板,并且价格便宜一个数量级;如果是面向科研问答、复杂 reasoning,闭源旗舰仍有优势,但差距在收窄。

5. 价格与可用性:成本结构性下沉

模型 输入 ($ / 1M tokens) 输出 ($ / 1M tokens) 上下文 许可
DeepSeek V4-Pro 1.74 3.48 1M MIT 开源
DeepSeek V4-Flash 0.14 0.28 1M MIT 开源
OpenAI GPT-5.4~10~30200K闭源
Anthropic Claude Opus 4.6~7.5~25500K闭源
Moonshot Kimi (新版)~1.5~4200K闭源
Alibaba Qwen-3.5-Max~0.8~2.41M闭源 API(开源中等版本)

V4-Pro 的输出价比 OpenAI 便宜约 9 倍,比 Claude 便宜约 7 倍;V4-Flash 输出价 $0.28/M,是 OpenAI 的 1/100。在国内开源阵营内部,V4-Flash 比 Qwen-3.5-Max 还要便宜 8-9 倍。

这不是"促销价"。结合上节的架构改动来看,V4 的低价是结构性的——MoE 激活效率改善 + DSA 减少 KV 缓存 + 昇腾 950 推理优化,三层杠杆叠加才让单 token 成本真正下降。后续 OpenAI/Claude 即便降价也很难追到这个区间。

6. 应用场景判断:什么时候该用 V4,什么时候不该

V4-Pro 是首选的场景

大型代码库重构、整库 review、多文件 refactor:1M 上下文 + LiveCodeBench/SWE-bench 顶级表现,V4-Pro 是当前最具性价比的"代码全局理解"模型。

长文档/PDF/合同分析:1M 上下文容得下整本书或几十份合同;token 成本只有 Claude 的 1/7。

批量化的 Agent 编排(成本敏感):如果你的 Agent 系统每天烧几千美元 token,V4-Pro 能直接砍掉 80% 的 LLM 成本。

V4-Flash 是首选的场景

规模化在线问答 / 客服:$0.28/M 输出价 + 1M 上下文,能放得下完整知识库 + 用户对话历史。

批处理流水线(数据清洗、摘要、翻译):在 Flash 体量下任务完成质量足够,且价格便宜到可以高并发跑全量。

本地化部署(160GB 权重):单台 8×A100 或 8×H100 节点可跑;Unsloth 量化版后可下放到 4×H100 甚至更小集群。

不要用 V4 的场景:

7. 接入方式:3 条主要路径

方式 A:DeepSeek 官方 API(最直接)

OpenAI 兼容协议,把 base_url 切到 DeepSeek 即可:

from openai import OpenAI client = OpenAI( api_key="YOUR_DEEPSEEK_KEY", base_url="https://api.deepseek.com/v1" ) resp = client.chat.completions.create( model="deepseek-v4-pro", # 或 "deepseek-v4-flash" messages=[{"role": "user", "content": "解释 DSA 稀疏注意力的核心机制"}], max_tokens=2048, ) print(resp.choices[0].message.content)

方式 B:OpenRouter(多家路由统一计费)

适合已经用 OpenRouter 做多模型 fallback 的团队,model 名为 deepseek/deepseek-v4-prodeepseek/deepseek-v4-flash。代价是 OpenRouter 加约 5-10% 的路由溢价,但好处是同一个 API key 可以无缝在 V4-Pro / Claude / GPT-5 间切换 fallback。

方式 C:HuggingFace + vLLM 自部署

适合已经跑了 V3/V3.2 自部署、对数据合规敏感的团队。V4-Flash(160GB)单机 8×H100 即可;V4-Pro(865GB)需要 4-8 节点的高速互联集群。Unsloth 团队即将放出 GGUF 量化版,可进一步降低硬件门槛。

8. 与 W17 周报的关联:为什么 V4 印证了本周三个趋势

本周 W17 周报里我们提出三个趋势——多模态生成进入工业部署、隐式推理挑战 CoT、Agent 训练系统化。DeepSeek V4 同时印证其中两条

第三个趋势(多模态隐式推理)V4 暂时不涉及——V4 是纯文本模型,多模态版本预计在 V4.5 或 V5 中发布。这也是 DeepSeek 一贯的策略:每代专注做透一个突破口,不做多模态全家桶

9. 一个被低估的信号:开源阵营首次"成本反超"闭源

过去三年的开源大模型故事一直是"性能逐渐追上闭源"。V4 改变了这条主线——它做的是性能 80% 持平 + 成本反超

用 LiveCodeBench 这个最能反映工程现实的代码基准做个粗略测算:V4-Pro(93.5 分,$3.48/M 输出)的"分/美元"是 27 分;Claude Opus 4.6(88.8 分,$25/M)是 3.6 分。换算到同样预算下,V4-Pro 能产出大约 7.5 倍于 Claude 的高质量代码 token。

当一个开源模型在主战场(编码)上既性能持平又成本便宜 7-9 倍时,闭源厂商的护城河就只剩两条:① 知识深度(GPQA / MMLU 仍领先);② 工具链与生态(function calling SDK 成熟度)。前者会被时间冲淡,后者是 Anthropic / OpenAI 接下来一年最该投入的方向。

10. 总结与下一步观察点

DeepSeek V4 是一次同时做对了三件事的发布:架构层面用 DSA 真正让 1M 上下文实用;性能层面把开源拉到与 Claude Opus 4.6 / Gemini 3.1-Pro 同档;商业层面用结构性低价 + 昇腾绑定改变了大模型基础设施的成本曲线。

未来 30 天最值得跟踪的 4 个观察点:

  1. 独立第三方 benchmark 复测:当前所有数字仍以官方为主,等 LMSys、Aider、Vellum 等独立榜单数据进来。
  2. Unsloth 量化版本 + 本地部署生态:如果 V4-Flash 量化后能在单卡 H100 跑通,开源生态会迎来一轮"自部署旗舰"小高潮。
  3. OpenAI/Anthropic 的价格回应:Claude 3.5/4.x 已经多次降价;GPT-5.4 是否会跟进将决定 V4 的价格优势能维持多久。
  4. 昇腾 950 量产节奏:DeepSeek 表示一旦昇腾 950 量产将进一步下调价格——这是中国 AI 基础设施"去 Nvidia 化"能否真正完成的关键里程碑。

想跟踪每天的 AI 模型与论文热度?Paper Collector 自动采集 HuggingFace 论文与开源项目,每日生成中文摘要。

访问 Paper Collector

本文写作信息源:DeepSeek 官方 V4 技术报告与 release notes、HuggingFace 模型卡、Simon Willison 实测笔记BloombergCNBCFortuneMIT Tech ReviewMacaron benchmark 整理。本文于 2026-04-25 撰写,部分独立 benchmark 数字仍在第三方复测中,价格与可用性以官方公告为准。趋势判断代表团队观点,仅供参考。