DeepSeek-V3 是什么?

DeepSeek-V3 是 DeepSeek 的旗舰开源大模型——一个总参数 671B、每 token 激活 37B 的混合专家(MoE)模型。它沿用并验证于 V2 的 Multi-head Latent Attention(MLA)与 DeepSeekMoE 架构以实现高效推理和经济训练,并首创「无辅助损失」的负载均衡策略与「多 token 预测(MTP)」训练目标。在 14.8 万亿 token 上预训练,再经 SFT 与 RL,整体性能超越其它开源模型、与领先闭源模型相当,而全程训练仅约 2.788M H800 GPU 小时、过程稳定无不可恢复的 loss spike。许可为 MIT,约 103,600 stars,是当时最强的开源基础模型之一。

⭐ 102,496 Stars 🍴 16,614 Forks Python MIT 作者: deepseek-ai
来源:README.md(Introduction、Model Summary);GitHub 仓库元数据(stars=103600、license=MIT、language=Python) 查看 GitHub 仓库 →

为什么值得关注

DeepSeek-V3 以「开源、性能对标闭源、训练成本却极低(约 2.788M H800 GPU 小时)」震动业界,并在工程上验证了大规模 FP8 训练、无辅助损失负载均衡、多 token 预测等创新,还把 R1 的长链推理能力蒸馏进来。它是开源 LLM 的标志性成果,引发广泛关注与讨论。截至数据采集约 103,600 stars。

来源:README.md(Introduction、Model Summary、Post-Training);GitHub 仓库元数据(stars=103600)

核心功能

671B MoE / 37B 激活

总参数 671B、每 token 激活 37B 的混合专家模型,用 MLA + DeepSeekMoE 兼顾性能与高效推理。

来源:README.md(Introduction)
无辅助损失负载均衡 + MTP

首创无辅助损失的负载均衡策略减少性能损失;多 token 预测(MTP)目标提升性能并可用于投机解码加速。

来源:README.md(Model Summary → Architecture)
FP8 大规模训练与极低成本

首次在超大规模模型上验证 FP8 混合精度训练,算法/框架/硬件协同近乎实现计算-通信完全重叠,14.8T token 预训练仅约 2.664M H800 GPU 小时。

来源:README.md(Model Summary → Pre-Training、Introduction)
从 R1 蒸馏推理能力

用创新方法把 DeepSeek-R1 系列长链思维模型的验证/反思推理能力蒸馏进 V3,显著提升其推理表现,同时控制输出风格与长度。

来源:README.md(Model Summary → Post-Training)

技术架构

DeepSeek-V3 是 671B 总参数、37B 激活的 MoE 模型。架构上:用 MLA(多头潜在注意力)压缩 KV、DeepSeekMoE 做专家路由,并首创「无辅助损失」的负载均衡策略以减少为均衡而引入的性能损失;引入多 token 预测(MTP)目标提升性能、也可用于推理期投机解码。预训练上:设计 FP8 混合精度训练框架并首次在超大规模模型上验证其可行,通过算法-框架-硬件协同设计几乎实现跨节点 MoE 训练的计算-通信完全重叠,从而以 14.8T token、约 2.664M H800 GPU 小时完成预训练(后续阶段仅约 0.1M GPU 小时)。后训练上:用创新方法把 R1 系列长链思维模型的验证/反思推理能力蒸馏进 V3,同时控制输出风格与长度。HF 上模型总计 685B(含 671B 主模型 + 14B MTP 模块)。

来源:README.md(Model Summary 的 Architecture/Pre-Training/Post-Training、Model Downloads 的 685B 说明)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) FP8 训练框架 多 token 预测(MTP)模块多 token 预测(… 社区/硬件厂商的本地运行方案社区/硬件厂商的… 671B MoE / 37B 激活 无辅助损失负载均衡 + MTP无辅助损失负载均衡 +… FP8 大规模训练与极低成本FP8 大规模训练与极低… 从 R1 蒸馏推理能力 DeepSeek-V3 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(推理代码)+ 模型权重框架MoE(MLA + DeepSeekMoE);FP8 混合精度训练
FP8 训练框架多 token 预测(MTP)模块社区/硬件厂商的本地运行方案
Hugging Face 权重(685B,含 MTP);多种本地运行方式;官方 Chat 网站与 API
来源:README.md(Model Summary、Model Downloads、Chat Website & API、How to Run Locally)

快速上手

本仓库提供模型权重与推理说明。从 Hugging Face 下载 DeepSeek-V3 权重(总计 685B,含 671B 主模型 + 14B MTP 模块),按 README 第 6 节「How to Run Locally」选择与社区/硬件厂商合作提供的多种本地运行方式部署;想深入权重与 MTP 模块细节看 README_WEIGHTS.md(MTP 支持仍在社区积极开发)。也可直接用官方 Chat 网站与 API 平台。注意 671B MoE 模型对算力/显存要求很高,本地部署需相应硬件。
来源:README.md(Model Downloads、How to Run Locally、Chat Website & API)

使用场景

适合需要顶级开源大模型能力的研究与产业用户:通用对话、写作、代码、数学与推理等任务;研究界研究其 MoE/MLA/FP8 训练/MTP/R1 蒸馏等创新并做二次开发;以及作为强基础模型微调或部署私有服务(需较强算力)。算力受限时可用官方 API 或选择社区提供的优化部署方案。

来源:README.md(Introduction、Evaluation、How to Run Locally)

优势与局限

优势

  • 开源旗舰:性能对标领先闭源模型,MIT 许可
  • 架构与训练创新(MLA、无辅助损失均衡、MTP、FP8),训练成本极低且稳定
  • 蒸馏 R1 推理能力,数学/代码表现突出
  • 影响巨大、生态与部署方案丰富

局限

  • 671B MoE 对算力/显存要求很高,本地部署门槛大
  • MTP 模块的社区支持仍在开发中
  • 本仓库以权重/说明为主,深入训练细节需结合论文
  • 大模型的部署与运维成本不低
来源:README.md(Introduction、Model Downloads 的 MTP 说明、How to Run Locally)

最新版本

本仓库发布 DeepSeek-V3 模型(HF 上 685B,含 671B 主模型 + 14B MTP 模块)。它是 DeepSeek-R1 的基础(R1/R1-Zero 基于 V3-Base 训练),并把 R1 的推理能力蒸馏回 V3。具体评测见 README 的 Evaluation Results;社区与硬件厂商提供多种本地运行方式。

来源:README.md(Model Downloads、Post-Training、Evaluation Results)

总结评价

DeepSeek-V3 是开源大模型的标杆:671B MoE、性能对标领先闭源模型,却以极低成本(约 2.788M H800 GPU 小时)稳定训成,并带来 MLA、无辅助损失负载均衡、MTP、FP8 大规模训练和 R1 推理蒸馏等一系列工程与算法创新,MIT 开源、影响深远。对需要顶级开源模型能力或研究其技术的团队价值极高。要清楚 671B MoE 的算力/显存门槛、MTP 社区支持仍在完善、本地部署成本不低。作为开源旗舰基础模型,它的性能、创新与开放度都处于第一梯队。

来源:综合 README.md 的架构/训练创新、性能与部署要求
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 13:49. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件