DeepSeek-R1 是什么?

DeepSeek-R1 是 DeepSeek 的第一代「推理」模型仓库,包含 DeepSeek-R1-Zero 与 DeepSeek-R1,以及从 R1 蒸馏出的 6 个稠密模型(基于 Qwen2.5 与 Llama3,规模 1.5B/7B/8B/14B/32B/70B)。R1-Zero 是首个公开验证「纯靠强化学习(无需 SFT 起步)即可激发 LLM 推理能力」的研究,自然涌现出自我验证、反思、生成长链思维(CoT)等行为;DeepSeek-R1 在 RL 前加入冷启动数据以改善可读性等问题,在数学、代码和推理任务上达到与 OpenAI-o1 相当的水平。许可为 MIT,约 92,020 stars。

⭐ 91,958 Stars 🍴 11,738 Forks MIT 作者: deepseek-ai
来源:README.md(Introduction、Model Summary、Distillation);GitHub 仓库元数据(stars=92020、license=MIT) 查看 GitHub 仓库 →

为什么值得关注

DeepSeek-R1 是 2025 年开源 AI 的标志性事件:它以开放权重 + MIT 许可,提供了可与 OpenAI-o1 相当的推理能力,并首次公开验证「纯 RL 激发推理」的路线,还把推理能力蒸馏进多种常用稠密模型(其中 Distill-Qwen-32B 在多项基准上超过 o1-mini)。对研究界与产业影响巨大、引发广泛复现与讨论,因而 star 极高。截至数据采集约 92,020 stars。

来源:README.md(Introduction、Distillation 的 SOTA 说明);GitHub 仓库元数据(stars=92020)

核心功能

纯 RL 激发推理(R1-Zero)

首个公开验证仅用强化学习(无需 SFT 起步)即可激发 LLM 推理能力,涌现自我验证、反思与长链思维。

来源:README.md(Model Summary → Post-Training)
o1 级推理(DeepSeek-R1)

在 RL 前加入冷启动数据改善可读性/语言混杂等问题,在数学、代码和推理任务上达到与 OpenAI-o1 相当的水平。

来源:README.md(Introduction)
多尺寸蒸馏模型

用 R1 的推理数据蒸馏出 1.5B/7B/8B/14B/32B/70B 稠密模型(基于 Qwen2.5/Llama3),其中 Distill-Qwen-32B 超过 o1-mini。

来源:README.md(Distillation、Model Downloads → Distill Models)
开放权重 + MIT

R1-Zero、R1 与蒸馏模型均开源,MIT 许可,便于研究界做蒸馏与二次研究。

来源:README.md(Distillation、License)

技术架构

训练上:直接对基础模型应用大规模强化学习(不以 SFT 为前置)得到 DeepSeek-R1-Zero,使其探索链式思维解决复杂问题、涌现自我验证与反思;在此基础上,DeepSeek-R1 采用「两段 RL + 两段 SFT」的流水线——两段 RL 用于发现更好的推理模式并对齐人类偏好,两段 SFT 作为推理与非推理能力的种子。R1-Zero 与 R1 都基于 DeepSeek-V3-Base 训练(架构细节见 DeepSeek-V3 仓库)。蒸馏上:用 R1 生成的推理数据微调多种广泛使用的稠密模型,开源 1.5B–70B(基于 Qwen2.5/Llama3)的蒸馏检查点,证明大模型的推理模式可有效蒸馏给小模型。本仓库主要提供模型权重、说明与使用建议,而非训练代码。

来源:README.md(Model Summary 的 Post-Training/Distillation、Model Downloads、基于 V3-Base 说明)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) DeepSeek-V3(基础架构)DeepSeek-V3(… Qwen2.5 / Llama3(蒸馏底座)Qwen2.5 / Llam… 纯 RL 激发推理(R1-Zero)纯 RL 激发推理(R1-Z… o1 级推理(DeepSeek-R1)o1 级推理(DeepSeek-… 多尺寸蒸馏模型 开放权重 + MIT DeepSeek-R1 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言模型权重 + 文档(无主代码语言)框架基于 DeepSeek-V3-Base 的推理模型;RL + SFT 训练流水线
DeepSeek-V3(基础架构)Qwen2.5 / Llama3(蒸馏底座)
开放权重发布(含蒸馏 1.5B–70B);附使用建议;提供 API
来源:README.md(Model Summary、Model Downloads、基于 V3-Base)

快速上手

本仓库主要提供模型权重与说明。下载 DeepSeek-R1 或其蒸馏版(1.5B–70B,按你的硬件选规模)即可在常见推理框架中部署使用;本地运行前务必先阅读 README 的「Usage Recommendations」(推理模型对采样温度、提示格式等有特定建议,否则可能出现重复/可读性差等问题)。架构细节参考 DeepSeek-V3 仓库;也可使用官方 API。
来源:README.md(NOTE 的 Usage Recommendations、Model Downloads、基于 V3 说明)

使用场景

适合需要强推理能力的场景与研究:数学、代码、复杂逻辑推理任务;以及研究界用其开放权重与推理数据做蒸馏、复现「RL 激发推理」的路线、或在更小的稠密模型上获得强推理。蒸馏版覆盖 1.5B–70B,便于在不同算力下部署。作为推理模型,使用时应遵循官方采样/提示建议以获得稳定输出。

来源:README.md(Introduction、Distillation、Usage Recommendations)

优势与局限

优势

  • 开放权重 + MIT,提供与 OpenAI-o1 相当的推理能力
  • 首次公开验证纯 RL 激发推理,对研究界意义重大
  • 蒸馏出 1.5B–70B 多尺寸稠密模型,便于不同算力部署
  • 影响巨大、复现广泛,生态支持完善

局限

  • R1-Zero 存在重复、可读性差、语言混杂等问题(R1 已缓解)
  • 推理模型对采样/提示设置敏感,需遵循使用建议
  • 大尺寸模型推理成本高
  • 本仓库以权重/说明为主,训练细节需结合论文与 V3 仓库
来源:README.md(Introduction 的 R1-Zero 问题、Usage Recommendations、Distillation)

最新版本

本仓库发布了 DeepSeek-R1-Zero、DeepSeek-R1 及六个蒸馏稠密模型(基于 Qwen2.5/Llama3,1.5B–70B)。R1 在数学/代码/推理上对标 OpenAI-o1,Distill-Qwen-32B 在多项基准上超过 o1-mini。模型基于 DeepSeek-V3-Base 训练,架构细节见 DeepSeek-V3 仓库。

来源:README.md(Introduction、Distillation、Model Downloads)

总结评价

DeepSeek-R1 是开源推理模型的里程碑:以开放权重 + MIT 提供与 OpenAI-o1 相当的数学/代码/推理能力,并首次公开验证「纯强化学习即可激发推理」,还把推理蒸馏进 1.5B–70B 多尺寸稠密模型,对研究界与产业影响深远。对需要强推理、或想研究/复现该路线的团队价值极高。要注意 R1-Zero 的可读性/语言混杂问题(R1 已改善)、推理模型对采样/提示设置敏感(先看使用建议)、以及大模型的推理成本。作为开放推理模型的标杆,它的意义与可用性都很突出。

来源:综合 README.md 的方法、模型与使用建议
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 13:47. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件