DeepSeek-R1 是 DeepSeek 的第一代「推理」模型仓库,包含 DeepSeek-R1-Zero 与 DeepSeek-R1,以及从 R1 蒸馏出的 6 个稠密模型(基于 Qwen2.5 与 Llama3,规模 1.5B/7B/8B/14B/32B/70B)。R1-Zero 是首个公开验证「纯靠强化学习(无需 SFT 起步)即可激发 LLM 推理能力」的研究,自然涌现出自我验证、反思、生成长链思维(CoT)等行为;DeepSeek-R1 在 RL 前加入冷启动数据以改善可读性等问题,在数学、代码和推理任务上达到与 OpenAI-o1 相当的水平。许可为 MIT,约 92,020 stars。
来源:README.md(Introduction、Model Summary、Distillation);GitHub 仓库元数据(stars=92020、license=MIT) 查看 GitHub 仓库 →DeepSeek-R1 是 2025 年开源 AI 的标志性事件:它以开放权重 + MIT 许可,提供了可与 OpenAI-o1 相当的推理能力,并首次公开验证「纯 RL 激发推理」的路线,还把推理能力蒸馏进多种常用稠密模型(其中 Distill-Qwen-32B 在多项基准上超过 o1-mini)。对研究界与产业影响巨大、引发广泛复现与讨论,因而 star 极高。截至数据采集约 92,020 stars。
来源:README.md(Introduction、Distillation 的 SOTA 说明);GitHub 仓库元数据(stars=92020)首个公开验证仅用强化学习(无需 SFT 起步)即可激发 LLM 推理能力,涌现自我验证、反思与长链思维。
来源:README.md(Model Summary → Post-Training)在 RL 前加入冷启动数据改善可读性/语言混杂等问题,在数学、代码和推理任务上达到与 OpenAI-o1 相当的水平。
来源:README.md(Introduction)用 R1 的推理数据蒸馏出 1.5B/7B/8B/14B/32B/70B 稠密模型(基于 Qwen2.5/Llama3),其中 Distill-Qwen-32B 超过 o1-mini。
来源:README.md(Distillation、Model Downloads → Distill Models)R1-Zero、R1 与蒸馏模型均开源,MIT 许可,便于研究界做蒸馏与二次研究。
来源:README.md(Distillation、License)训练上:直接对基础模型应用大规模强化学习(不以 SFT 为前置)得到 DeepSeek-R1-Zero,使其探索链式思维解决复杂问题、涌现自我验证与反思;在此基础上,DeepSeek-R1 采用「两段 RL + 两段 SFT」的流水线——两段 RL 用于发现更好的推理模式并对齐人类偏好,两段 SFT 作为推理与非推理能力的种子。R1-Zero 与 R1 都基于 DeepSeek-V3-Base 训练(架构细节见 DeepSeek-V3 仓库)。蒸馏上:用 R1 生成的推理数据微调多种广泛使用的稠密模型,开源 1.5B–70B(基于 Qwen2.5/Llama3)的蒸馏检查点,证明大模型的推理模式可有效蒸馏给小模型。本仓库主要提供模型权重、说明与使用建议,而非训练代码。
来源:README.md(Model Summary 的 Post-Training/Distillation、Model Downloads、基于 V3-Base 说明)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
DeepSeek-V3(基础架构)Qwen2.5 / Llama3(蒸馏底座)适合需要强推理能力的场景与研究:数学、代码、复杂逻辑推理任务;以及研究界用其开放权重与推理数据做蒸馏、复现「RL 激发推理」的路线、或在更小的稠密模型上获得强推理。蒸馏版覆盖 1.5B–70B,便于在不同算力下部署。作为推理模型,使用时应遵循官方采样/提示建议以获得稳定输出。
来源:README.md(Introduction、Distillation、Usage Recommendations)本仓库发布了 DeepSeek-R1-Zero、DeepSeek-R1 及六个蒸馏稠密模型(基于 Qwen2.5/Llama3,1.5B–70B)。R1 在数学/代码/推理上对标 OpenAI-o1,Distill-Qwen-32B 在多项基准上超过 o1-mini。模型基于 DeepSeek-V3-Base 训练,架构细节见 DeepSeek-V3 仓库。
来源:README.md(Introduction、Distillation、Model Downloads)DeepSeek-R1 是开源推理模型的里程碑:以开放权重 + MIT 提供与 OpenAI-o1 相当的数学/代码/推理能力,并首次公开验证「纯强化学习即可激发推理」,还把推理蒸馏进 1.5B–70B 多尺寸稠密模型,对研究界与产业影响深远。对需要强推理、或想研究/复现该路线的团队价值极高。要注意 R1-Zero 的可读性/语言混杂问题(R1 已改善)、推理模型对采样/提示设置敏感(先看使用建议)、以及大模型的推理成本。作为开放推理模型的标杆,它的意义与可用性都很突出。
来源:综合 README.md 的方法、模型与使用建议