采用 MLA 和 DeepSeekMoE 架构,实现高效推理和低成本训练。
来源:据 README 描述在 14.8T 高质量语料上预训练,并通过监督微调和强化学习进行优化。
来源:据 README 描述通过多令牌预测目标实现推理加速。
来源:据 README 描述代码结构包括 .github、figures、inference 等目录,以及 LICENSE、README 等文件。
来源:代码目录结构key_deps: 信息不足,待补充 | language: Python | framework: 无明确提及框架
来源:据 README 描述适用于自然语言处理、文本生成、问答系统等。
来源:据 README 描述v1.0.0 (2025-06-27): 用于存档和 DOI 生成。
来源:GitHub Releases