VLM-R1 是一个稳定、可泛化的「R1 式」大型视觉语言模型(VLM)训练项目——把 DeepSeek-R1 的强化学习思路用到 VLM 上。它以指代表达理解(REC)等任务为例,用 R1(GRPO 强化学习)与 SFT 两种方式训练 Qwen2.5-VL,发现:在域内数据上小步数时两者相近,但在域外数据上 SFT 略退化、而 RL 模型能把推理能力泛化过去。许可为 Apache-2.0,Python,约 5,961 stars,有技术报告(arXiv 2504.07615)。
来源:README.md(首段、性能说明、Update 的技术报告);GitHub 仓库元数据(stars=5961、license=Apache-2.0、language=Python) 查看 GitHub 仓库 →DeepSeek-R1 验证了纯 RL 激发推理后,社区争相把它推广到多模态。VLM-R1 是较早、较稳定地把 R1 式 RL(GRPO)用于视觉语言模型的开源实现,并给出「RL 比 SFT 在域外泛化更好」的实证、有技术报告,支持 QwenVL/InternVL、LoRA、多节点与昇腾部署,因而在多模态 RL 研究圈受关注。截至数据采集约 5,961 stars。
来源:README.md(首段、性能说明、Features、Update);GitHub 仓库元数据(stars=5961)用 GRPO 强化学习训练视觉语言模型,把 R1 的推理激发思路用于多模态;实证 RL 比 SFT 域外泛化更好。
来源:README.md(首段、性能说明、Features)支持 GRPO 全参/ LoRA 微调、冻结视觉模块、多节点训练、多图输入与自定义数据。
来源:README.md(Features 列表)支持 QwenVL、InternVL(可加新模型),可在 VLM 模块里自定义奖励函数;覆盖 REC、OVD 等任务的奖励设计。
来源:README.md(Features、Update 的奖励/自定义)适配华为昇腾(vllm-ascend、JD xllm),TTFT 降约 50%、吞吐提升约 127%,扩展部署硬件。
来源:README.md(Update 2025-08)VLM-R1 基于 open-r1-multimodal 实现,用 GRPO 对视觉语言模型做强化学习训练。支持:GRPO 全参微调与 LoRA 微调、冻结视觉模块、多节点训练、多图输入训练、自定义数据;模型上支持 QwenVL 与 InternVL(可按指南加新模型)。任务以 REC(指代表达理解)为代表,并扩展到 OVD(开放词汇检测,引入 odLength/weighted_sum/cosine 等奖励)。可通过 is_reward_customized_from_vlm_module 在各 VLM 模块里自定义奖励函数。推理/部署上适配了昇腾(vllm-ascend、JD 的 xllm 框架,TTFT 降约 50%、吞吐提升约 127%)。提供 run_scripts 下各任务脚本与技术报告。
来源:README.md(Features、Update 各项、首段)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
Qwen2.5-VL / InternVLGRPO/RL 训练栈vllm-ascend / JD xllm(昇腾推理)适合做多模态强化学习研究与工程的团队:用 GRPO 对视觉语言模型做 R1 式训练以提升推理与泛化(尤其域外)、复现/扩展 REC、OVD 等视觉理解任务、在 QwenVL/InternVL 上做 RL 微调实验、或在昇腾硬件上部署。它是 VLM 的 RL 训练框架/实现,适合研究者与有算力的工程团队,参考其技术报告与发现做方法对比。
来源:README.md(首段、Features、技术报告)本页未列出严格版本号;VLM-R1 持续迭代(最近更新约 2025 年中),里程碑包括技术报告(arXiv 2504.07615)、OVD 任务与多种奖励、REC 流程统一到 grpo_jsonl、自定义奖励支持,以及昇腾(vllm-ascend / JD xllm)部署优化。更新以 RL 训练方法、任务与部署为主。
来源:README.md(Update 时间线、技术报告)VLM-R1 把 DeepSeek-R1 的「纯 RL 激发推理」推广到视觉语言模型,是较早且稳定的开源实现:用 GRPO 训练 VLM、实证 RL 比 SFT 域外泛化更好、有技术报告,训练配置灵活(全参/LoRA/多节点/多图)、支持 QwenVL/InternVL 与自定义奖励,还做了昇腾部署优化。对做多模态 RL 研究的团队很有价值。要清楚它面向研究/训练、算力要求高、效果依赖任务与奖励设计、且需结合最新工作。作为 VLM 的 R1 式 RL 训练框架,它前沿、扎实、可复现。
来源:综合 README.md 的 RL 训练定位、实证发现与工程支持