DeepSeek-V3 是 DeepSeek 的旗舰开源大模型——一个总参数 671B、每 token 激活 37B 的混合专家(MoE)模型。它沿用并验证于 V2 的 Multi-head Latent Attention(MLA)与 DeepSeekMoE 架构以实现高效推理和经济训练,并首创「无辅助损失」的负载均衡策略与「多 token 预测(MTP)」训练目标。在 14.8 万亿 token 上预训练,再经 SFT 与 RL,整体性能超越其它开源模型、与领先闭源模型相当,而全程训练仅约 2.788M H800 GPU 小时、过程稳定无不可恢复的 loss spike。许可为 MIT,约 103,600 stars,是当时最强的开源基础模型之一。
来源:README.md(Introduction、Model Summary);GitHub 仓库元数据(stars=103600、license=MIT、language=Python) 查看 GitHub 仓库 →DeepSeek-V3 以「开源、性能对标闭源、训练成本却极低(约 2.788M H800 GPU 小时)」震动业界,并在工程上验证了大规模 FP8 训练、无辅助损失负载均衡、多 token 预测等创新,还把 R1 的长链推理能力蒸馏进来。它是开源 LLM 的标志性成果,引发广泛关注与讨论。截至数据采集约 103,600 stars。
来源:README.md(Introduction、Model Summary、Post-Training);GitHub 仓库元数据(stars=103600)总参数 671B、每 token 激活 37B 的混合专家模型,用 MLA + DeepSeekMoE 兼顾性能与高效推理。
来源:README.md(Introduction)首创无辅助损失的负载均衡策略减少性能损失;多 token 预测(MTP)目标提升性能并可用于投机解码加速。
来源:README.md(Model Summary → Architecture)首次在超大规模模型上验证 FP8 混合精度训练,算法/框架/硬件协同近乎实现计算-通信完全重叠,14.8T token 预训练仅约 2.664M H800 GPU 小时。
来源:README.md(Model Summary → Pre-Training、Introduction)用创新方法把 DeepSeek-R1 系列长链思维模型的验证/反思推理能力蒸馏进 V3,显著提升其推理表现,同时控制输出风格与长度。
来源:README.md(Model Summary → Post-Training)DeepSeek-V3 是 671B 总参数、37B 激活的 MoE 模型。架构上:用 MLA(多头潜在注意力)压缩 KV、DeepSeekMoE 做专家路由,并首创「无辅助损失」的负载均衡策略以减少为均衡而引入的性能损失;引入多 token 预测(MTP)目标提升性能、也可用于推理期投机解码。预训练上:设计 FP8 混合精度训练框架并首次在超大规模模型上验证其可行,通过算法-框架-硬件协同设计几乎实现跨节点 MoE 训练的计算-通信完全重叠,从而以 14.8T token、约 2.664M H800 GPU 小时完成预训练(后续阶段仅约 0.1M GPU 小时)。后训练上:用创新方法把 R1 系列长链思维模型的验证/反思推理能力蒸馏进 V3,同时控制输出风格与长度。HF 上模型总计 685B(含 671B 主模型 + 14B MTP 模块)。
来源:README.md(Model Summary 的 Architecture/Pre-Training/Post-Training、Model Downloads 的 685B 说明)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
FP8 训练框架多 token 预测(MTP)模块社区/硬件厂商的本地运行方案适合需要顶级开源大模型能力的研究与产业用户:通用对话、写作、代码、数学与推理等任务;研究界研究其 MoE/MLA/FP8 训练/MTP/R1 蒸馏等创新并做二次开发;以及作为强基础模型微调或部署私有服务(需较强算力)。算力受限时可用官方 API 或选择社区提供的优化部署方案。
来源:README.md(Introduction、Evaluation、How to Run Locally)本仓库发布 DeepSeek-V3 模型(HF 上 685B,含 671B 主模型 + 14B MTP 模块)。它是 DeepSeek-R1 的基础(R1/R1-Zero 基于 V3-Base 训练),并把 R1 的推理能力蒸馏回 V3。具体评测见 README 的 Evaluation Results;社区与硬件厂商提供多种本地运行方式。
来源:README.md(Model Downloads、Post-Training、Evaluation Results)DeepSeek-V3 是开源大模型的标杆:671B MoE、性能对标领先闭源模型,却以极低成本(约 2.788M H800 GPU 小时)稳定训成,并带来 MLA、无辅助损失负载均衡、MTP、FP8 大规模训练和 R1 推理蒸馏等一系列工程与算法创新,MIT 开源、影响深远。对需要顶级开源模型能力或研究其技术的团队价值极高。要清楚 671B MoE 的算力/显存门槛、MTP 社区支持仍在完善、本地部署成本不低。作为开源旗舰基础模型,它的性能、创新与开放度都处于第一梯队。
来源:综合 README.md 的架构/训练创新、性能与部署要求