DeepSeek V4 和 V3 的核心区别是什么？

V4 引入 DSA（DeepSeek Sparse Attention）稀疏注意力 + token-wise 压缩，让 1M 上下文推理变得实用。在相同任务上，V4-Pro 单 token FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 10%。同时 V4 系列在编码、数学等任务上接近 GPT-5.4 / Gemini 3.1-Pro，超越所有同期开源模型。

V4-Pro 和 V4-Flash 怎么选？

V4-Pro（1.6T 总参 / 49B 激活）适合复杂推理、长上下文、多步 Agent 场景；V4-Flash（284B / 13B 激活）适合在线问答、短文本生成、批处理流水线，价格只有 Pro 的 1/12。如果业务对上下文长度依赖低、对延迟敏感且需要规模化部署，Flash 是首选。

DeepSeek V4 的 API 价格相比 OpenAI 和 Claude 便宜多少？

V4-Pro 输出价 $3.48/1M tokens，约为 OpenAI ($30) 的 1/9、Claude ($25) 的 1/7；V4-Flash 输出价仅 $0.28/1M，约为 OpenAI 价格的 1/100。这是 DeepSeek 一以贯之的低价路线，通过 MoE 激活效率与昇腾推理优化实现。

DeepSeek V4 是开源的吗？许可证是什么？

是。两个变体均按 MIT 许可证发布权重，可商用、可微调、可二次分发。完整权重已上传至 HuggingFace（V4-Pro 约 865GB，V4-Flash 约 160GB），Unsloth 团队也将放出 GGUF 量化版供本地部署。

DeepSeek V4 真的能在华为昇腾上跑训练吗？

目前训练核心仍在 Nvidia Hopper（约 16,000 张）完成；Huawei 已宣布对 V4 系列提供完整推理支持，并正与 DeepSeek 协同推进昇腾 950 量产以承担更多推理负载。换言之：训练阶段仍是 Nvidia 生态，推理阶段在向昇腾迁移。

DeepSeek V4 深度解析：DSA 稀疏注意力、1M 上下文、与 GPT-5/Claude/Gemini 全面对比

TL;DR — 关键 3 点

1.6T MoE，激活 49B：DeepSeek-V4-Pro 在保持旗舰参数规模的同时，把单次推理 FLOPs 压到 V3.2 的 27%、KV 缓存压到 10%——靠的是新提出的 DSA（DeepSeek Sparse Attention） + token-wise 压缩，让 1M 上下文真正实用。
开源阵营首次正面追上闭源前沿：在 LiveCodeBench、SWE-bench Verified、Codeforces 上 V4-Pro 与 Claude Opus 4.6 / Gemini 3.1-Pro 同档；在 MMLU-Pro、GPQA Diamond 等知识/科学题上仍落后 Gemini 3.1-Pro 约 3-6 个月身位。
价格比 OpenAI 便宜 9 倍，比 Claude 便宜 7 倍，且全面押注华为昇腾 950 推理——这次不只是模型发布，而是中国 AI 基础设施"去 Nvidia 化"的第一次工业级实证。

1. 发布背景：DeepSeek V4 在 2026 路线图中的位置

2026 年 4 月 24 日，DeepSeek 正式发布 V4 系列预览版（preview），包括 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个变体，权重已上传至 HuggingFace，许可证为 MIT，可商用。这是 DeepSeek 自 2025 年初以 V3 震动行业以来首个跨大版本更新——V3 → V3.1 → V3.2 都是同一架构家族的迭代，而 V4 引入了核心架构改动：DSA 稀疏注意力。

这次发布的时间点很微妙。本周（2026 W17）国内开源大模型阵营高度密集——阿里 Qwen 3.5、智谱 GLM-5.1、Moonshot Kimi 新版均在最近 30 天内上线，DeepSeek 直接在 V4 中拿出 LiveCodeBench 93.5、Codeforces 3206 这类硬指标，意图非常明确：把"开源最强编码模型"标签从 Qwen-Coder 系列重新拿回来，并把价格门槛拉到比同级闭源便宜一个数量级。

更值得关注的是 Huawei 同期宣布对 V4 系列提供完整推理支持，并将通过昇腾 950 量产把 V4-Pro 价格继续下压。换句话说，V4 不只是一次模型升级，而是中国大模型产业链尝试构建"开源权重 + 国产芯片 + 低价 API"完整闭环的第一次工业级实证。

2. 核心规格速览

V4-Pro 总参 / 激活

1.6T / 49B

MoE 架构，权重 865 GB

V4-Flash 总参 / 激活

284B / 13B

权重 160 GB，可单机推理

上下文长度

1,000,000 tokens

两个变体相同，DSA + token-wise 压缩支撑

训练数据量

33T / 32T tokens

Pro / Flash，预训练规模相当

许可证

MIT

商用、微调、二次分发均可

训练算力

~16,000 Hopper GPU

总成本约 5.6M 美元，效率较 V3 翻倍

3. 架构创新：DSA 稀疏注意力是什么？

DeepSeek 在 V4 技术报告中把 DSA（DeepSeek Sparse Attention）作为最核心的架构改动。它解决的问题是：传统 Attention 在 1M 上下文下，KV 缓存与单步 FLOPs 都会随上下文长度近似平方膨胀，导致 1M 上下文虽然技术上能跑，但成本和延迟都不实用。

DSA 的两个核心机制：

稀疏化 attention 计算：让每个 token 只与一个动态选出的"显著 token 子集"做 attention，而不是与全部上下文。子集的选取由模型自身学习——不是固定窗口（local attention）也不是 router（MoE 路由），而是基于内容的稀疏模式。
Token-wise 压缩：在 KV 缓存层面，对历史 token 做按内容自适应的压缩，让"老" token 占用更少内存且不丢失关键语义。

两者叠加的实际效果：V4-Pro 在相同任务上单 token FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 10%；V4-Flash 更激进，FLOPs 10%、内存 7%。这意味着同样硬件上 V4 能多跑一个数量级的并发。

类比来看，DSA 在思路上与 Mistral 的 Sliding Window Attention、Anthropic 的 Constitutional AI Long Context、Mamba 系列的状态空间模型有相似处——都是"放弃全连接 attention 换取长上下文实用性"——但 DeepSeek 的工程化做得更彻底：从训练到推理整条链都按稀疏假设重写，而不是事后加一层压缩。这也是 V4 能把 1M 上下文做成"默认能力"而不是"特殊配置"的关键。

4. Benchmark 全面对比：V4-Pro vs GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1-Pro

以下是 DeepSeek V4-Pro（最高推理模式 Pro-Max）与三家闭源前沿模型的横向对比，数据来自 DeepSeek 官方技术报告与第三方复测的交集。绿色数字代表该项 V4-Pro 取得最优或并列最优，橙色为接近最优，红色为明显落后。

Benchmark	DeepSeek V4-Pro	Claude Opus 4.6	GPT-5.4	Gemini 3.1-Pro
LiveCodeBench（编码）	93.5	88.8	—	91.7
Codeforces Rating	3,206	—	3,168	—
SWE-bench Verified	80.6	80.8	—	80.6
MMLU-Pro（综合知识）	87.5	89.1	87.5	91.0
GPQA Diamond（科学推理）	90.1	91.3	93.0	94.3
Terminal-Bench 2.0（命令行 Agent）	67.9	65.4	75.1	68.5
HLE（Hard Logic Eval）	37.7	—	—	—

怎么读这张表

编码与算法：V4-Pro 是当前开源最强，且与闭源前沿打成平手。LiveCodeBench 93.5、Codeforces 3206 同时领先 GPT-5.4 和 Gemini 3.1-Pro，SWE-bench Verified 与 Claude Opus 持平。
知识与科学题仍是短板。MMLU-Pro 落后 Gemini 3.5 个百分点，GPQA Diamond 落后 Gemini 4.2 个百分点——DeepSeek 自己也承认这部分 "落后 SOTA 约 3-6 个月"。
命令行 Agent（Terminal-Bench）追上 Claude/Gemini，但显著输给 GPT-5.4。GPT-5.4 的 75.1 在工具调用上仍然是单点最强。

结论是清晰的：V4-Pro 是"开源前沿"，但还不是"绝对前沿"。如果你的业务核心是编码、算法、长文档处理，V4-Pro 在性能上已经没短板，并且价格便宜一个数量级；如果是面向科研问答、复杂 reasoning，闭源旗舰仍有优势，但差距在收窄。

5. 价格与可用性：成本结构性下沉

模型	输入 ($ / 1M tokens)	输出 ($ / 1M tokens)	上下文	许可
DeepSeek V4-Pro	1.74	3.48	1M	MIT 开源
DeepSeek V4-Flash	0.14	0.28	1M	MIT 开源
OpenAI GPT-5.4	~10	~30	200K	闭源
Anthropic Claude Opus 4.6	~7.5	~25	500K	闭源
Moonshot Kimi (新版)	~1.5	~4	200K	闭源
Alibaba Qwen-3.5-Max	~0.8	~2.4	1M	闭源 API（开源中等版本）

V4-Pro 的输出价比 OpenAI 便宜约 9 倍，比 Claude 便宜约 7 倍；V4-Flash 输出价 $0.28/M，是 OpenAI 的 1/100。在国内开源阵营内部，V4-Flash 比 Qwen-3.5-Max 还要便宜 8-9 倍。

这不是"促销价"。结合上节的架构改动来看，V4 的低价是结构性的——MoE 激活效率改善 + DSA 减少 KV 缓存 + 昇腾 950 推理优化，三层杠杆叠加才让单 token 成本真正下降。后续 OpenAI/Claude 即便降价也很难追到这个区间。

6. 应用场景判断：什么时候该用 V4，什么时候不该

V4-Pro 是首选的场景

✓ 大型代码库重构、整库 review、多文件 refactor：1M 上下文 + LiveCodeBench/SWE-bench 顶级表现，V4-Pro 是当前最具性价比的"代码全局理解"模型。

✓ 长文档/PDF/合同分析：1M 上下文容得下整本书或几十份合同；token 成本只有 Claude 的 1/7。

✓ 批量化的 Agent 编排（成本敏感）：如果你的 Agent 系统每天烧几千美元 token，V4-Pro 能直接砍掉 80% 的 LLM 成本。

V4-Flash 是首选的场景

✓ 规模化在线问答 / 客服：$0.28/M 输出价 + 1M 上下文，能放得下完整知识库 + 用户对话历史。

✓ 批处理流水线（数据清洗、摘要、翻译）：在 Flash 体量下任务完成质量足够，且价格便宜到可以高并发跑全量。

✓ 本地化部署（160GB 权重）：单台 8×A100 或 8×H100 节点可跑；Unsloth 量化版后可下放到 4×H100 甚至更小集群。

不要用 V4 的场景：

科研问答 / 复杂多步推理：GPQA Diamond 与 Gemini 3.1-Pro 仍有 4 个百分点差距；要做学术问答系统，闭源旗舰目前更稳。
需要 native function-calling 完整生态：V4 支持 OpenAI 兼容 function call，但围绕它的工具链（如 SDK、retry/timeout、结构化输出验证）远不如 OpenAI/Anthropic 成熟。
合规要求严格、需要"模型可审计"的领域：金融、医疗、法律生产环境，闭源旗舰有 SLA、企业合同与合规背书；DeepSeek 的开源虽然权重透明，但训练数据组合至今未完整披露。
追求绝对最优 reasoning：DeepSeek 自评"落后 SOTA 3-6 个月"——如果业务必须用最强推理（如复杂数学证明、奥赛题求解），等下一代或继续用 Gemini 3.1-Pro。

7. 接入方式：3 条主要路径

方式 A：DeepSeek 官方 API（最直接）

OpenAI 兼容协议，把 base_url 切到 DeepSeek 即可：

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_KEY",
    base_url="https://api.deepseek.com/v1"
)

resp = client.chat.completions.create(
    model="deepseek-v4-pro",   # 或 "deepseek-v4-flash"
    messages=[{"role": "user", "content": "解释 DSA 稀疏注意力的核心机制"}],
    max_tokens=2048,
)
print(resp.choices[0].message.content)

方式 B：OpenRouter（多家路由统一计费）

适合已经用 OpenRouter 做多模型 fallback 的团队，model 名为 deepseek/deepseek-v4-pro 或 deepseek/deepseek-v4-flash。代价是 OpenRouter 加约 5-10% 的路由溢价，但好处是同一个 API key 可以无缝在 V4-Pro / Claude / GPT-5 间切换 fallback。

方式 C：HuggingFace + vLLM 自部署

适合已经跑了 V3/V3.2 自部署、对数据合规敏感的团队。V4-Flash（160GB）单机 8×H100 即可；V4-Pro（865GB）需要 4-8 节点的高速互联集群。Unsloth 团队即将放出 GGUF 量化版，可进一步降低硬件门槛。

8. 与 W17 周报的关联：为什么 V4 印证了本周三个趋势

在本周 W17 周报里我们提出三个趋势——多模态生成进入工业部署、隐式推理挑战 CoT、Agent 训练系统化。DeepSeek V4 同时印证其中两条：

"工业部署"信号：1M 上下文从"benchmark 噱头"变成"默认能力"，且单 token 成本下降一个数量级——这是大模型从研究/Demo 阶段全面走向规模化生产的最关键基础设施变化。
"Agent 训练系统化"信号：Codeforces 3206、Terminal-Bench 67.9、SWE-bench Verified 80.6 这组数字，意味着 V4 不再只是"会写代码"，而是能在真实工程环境里持续推进任务——也就是上周 W16 周报里讨论过的 AiScientist / OccuBench 那条"长时程 Agent 工程化"的延伸。

第三个趋势（多模态隐式推理）V4 暂时不涉及——V4 是纯文本模型，多模态版本预计在 V4.5 或 V5 中发布。这也是 DeepSeek 一贯的策略：每代专注做透一个突破口，不做多模态全家桶。

9. 一个被低估的信号：开源阵营首次"成本反超"闭源

过去三年的开源大模型故事一直是"性能逐渐追上闭源"。V4 改变了这条主线——它做的是性能 80% 持平 + 成本反超。

用 LiveCodeBench 这个最能反映工程现实的代码基准做个粗略测算：V4-Pro（93.5 分，$3.48/M 输出）的"分/美元"是 27 分；Claude Opus 4.6（88.8 分，$25/M）是 3.6 分。换算到同样预算下，V4-Pro 能产出大约 7.5 倍于 Claude 的高质量代码 token。

当一个开源模型在主战场（编码）上既性能持平又成本便宜 7-9 倍时，闭源厂商的护城河就只剩两条：① 知识深度（GPQA / MMLU 仍领先）；② 工具链与生态（function calling SDK 成熟度）。前者会被时间冲淡，后者是 Anthropic / OpenAI 接下来一年最该投入的方向。

10. 总结与下一步观察点

DeepSeek V4 是一次同时做对了三件事的发布：架构层面用 DSA 真正让 1M 上下文实用；性能层面把开源拉到与 Claude Opus 4.6 / Gemini 3.1-Pro 同档；商业层面用结构性低价 + 昇腾绑定改变了大模型基础设施的成本曲线。

未来 30 天最值得跟踪的 4 个观察点：

独立第三方 benchmark 复测：当前所有数字仍以官方为主，等 LMSys、Aider、Vellum 等独立榜单数据进来。
Unsloth 量化版本 + 本地部署生态：如果 V4-Flash 量化后能在单卡 H100 跑通，开源生态会迎来一轮"自部署旗舰"小高潮。
OpenAI/Anthropic 的价格回应：Claude 3.5/4.x 已经多次降价；GPT-5.4 是否会跟进将决定 V4 的价格优势能维持多久。
昇腾 950 量产节奏：DeepSeek 表示一旦昇腾 950 量产将进一步下调价格——这是中国 AI 基础设施"去 Nvidia 化"能否真正完成的关键里程碑。

想跟踪每天的 AI 模型与论文热度？Paper Collector 自动采集 HuggingFace 论文与开源项目，每日生成中文摘要。

访问 Paper Collector

本文写作信息源：DeepSeek 官方 V4 技术报告与 release notes、HuggingFace 模型卡、Simon Willison 实测笔记、Bloomberg、CNBC、Fortune、MIT Tech Review、Macaron benchmark 整理。本文于 2026-04-25 撰写，部分独立 benchmark 数字仍在第三方复测中，价格与可用性以官方公告为准。趋势判断代表团队观点，仅供参考。