VLM-R1 是什么?

VLM-R1 是一个稳定、可泛化的「R1 式」大型视觉语言模型(VLM)训练项目——把 DeepSeek-R1 的强化学习思路用到 VLM 上。它以指代表达理解(REC)等任务为例,用 R1(GRPO 强化学习)与 SFT 两种方式训练 Qwen2.5-VL,发现:在域内数据上小步数时两者相近,但在域外数据上 SFT 略退化、而 RL 模型能把推理能力泛化过去。许可为 Apache-2.0,Python,约 5,961 stars,有技术报告(arXiv 2504.07615)。

⭐ 5,927 Stars 🍴 378 Forks Python Apache-2.0 作者: om-ai-lab
来源:README.md(首段、性能说明、Update 的技术报告);GitHub 仓库元数据(stars=5961、license=Apache-2.0、language=Python) 查看 GitHub 仓库 →

为什么值得关注

DeepSeek-R1 验证了纯 RL 激发推理后,社区争相把它推广到多模态。VLM-R1 是较早、较稳定地把 R1 式 RL(GRPO)用于视觉语言模型的开源实现,并给出「RL 比 SFT 在域外泛化更好」的实证、有技术报告,支持 QwenVL/InternVL、LoRA、多节点与昇腾部署,因而在多模态 RL 研究圈受关注。截至数据采集约 5,961 stars。

来源:README.md(首段、性能说明、Features、Update);GitHub 仓库元数据(stars=5961)

核心功能

R1 式 RL 训练 VLM(GRPO)

用 GRPO 强化学习训练视觉语言模型,把 R1 的推理激发思路用于多模态;实证 RL 比 SFT 域外泛化更好。

来源:README.md(首段、性能说明、Features)
灵活的训练配置

支持 GRPO 全参/ LoRA 微调、冻结视觉模块、多节点训练、多图输入与自定义数据。

来源:README.md(Features 列表)
多模型与自定义奖励

支持 QwenVL、InternVL(可加新模型),可在 VLM 模块里自定义奖励函数;覆盖 REC、OVD 等任务的奖励设计。

来源:README.md(Features、Update 的奖励/自定义)
昇腾部署优化

适配华为昇腾(vllm-ascend、JD xllm),TTFT 降约 50%、吞吐提升约 127%,扩展部署硬件。

来源:README.md(Update 2025-08)

技术架构

VLM-R1 基于 open-r1-multimodal 实现,用 GRPO 对视觉语言模型做强化学习训练。支持:GRPO 全参微调与 LoRA 微调、冻结视觉模块、多节点训练、多图输入训练、自定义数据;模型上支持 QwenVL 与 InternVL(可按指南加新模型)。任务以 REC(指代表达理解)为代表,并扩展到 OVD(开放词汇检测,引入 odLength/weighted_sum/cosine 等奖励)。可通过 is_reward_customized_from_vlm_module 在各 VLM 模块里自定义奖励函数。推理/部署上适配了昇腾(vllm-ascend、JD 的 xllm 框架,TTFT 降约 50%、吞吐提升约 127%)。提供 run_scripts 下各任务脚本与技术报告。

来源:README.md(Features、Update 各项、首段)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) Qwen2.5-VL / InternVLQwen2.5-VL / I… GRPO/RL 训练栈 vllm-ascend / JD xllm(昇腾推理)vllm-ascend /… R1 式 RL 训练 VLM(GRPO)R1 式 RL 训练 VLM(G… 灵活的训练配置 多模型与自定义奖励 昇腾部署优化 VLM-R1 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架open-r1-multimodal + GRPO(RL 训练)
Qwen2.5-VL / InternVLGRPO/RL 训练栈vllm-ascend / JD xllm(昇腾推理)
多节点训练;NVIDIA GPU 与华为昇腾;run_scripts 脚本
来源:README.md(Features、Update);GitHub 仓库元数据(language=Python)

快速上手

按仓库 run_scripts 下脚本训练:如 run_grpo_rec.sh 做 REC 的 GRPO 全参微调、run_grpo_rec_lora.sh 做 LoRA、multinode_training_demo.sh 做多节点、run_grpo_gui.sh 做多图输入;冻结视觉模块设 freeze_vision_modules=true。用自有数据见文档;加新模型(QwenVL/InternVL 之外)见 add_new_model.md;自定义奖励用 is_reward_customized_from_vlm_module。推理可用 vllm-ascend 或 JD xllm 在昇腾上部署。技术报告见 arXiv 2504.07615。训练对 GPU/算力有要求。
来源:README.md(Features 的脚本、Update、技术报告)

使用场景

适合做多模态强化学习研究与工程的团队:用 GRPO 对视觉语言模型做 R1 式训练以提升推理与泛化(尤其域外)、复现/扩展 REC、OVD 等视觉理解任务、在 QwenVL/InternVL 上做 RL 微调实验、或在昇腾硬件上部署。它是 VLM 的 RL 训练框架/实现,适合研究者与有算力的工程团队,参考其技术报告与发现做方法对比。

来源:README.md(首段、Features、技术报告)

优势与局限

优势

  • 较早、较稳定地把 R1 式 RL(GRPO)用于视觉语言模型
  • 实证 RL 比 SFT 域外泛化更好,有技术报告与发现
  • 训练配置灵活(全参/LoRA/冻结视觉/多节点/多图)、支持 QwenVL/InternVL、可自定义奖励
  • 昇腾部署优化(TTFT/吞吐显著改善),Apache-2.0 开源

局限

  • 面向研究/训练,RL 训练对算力要求高、调参复杂
  • 效果与任务、奖励设计、基座模型相关
  • 近期更新约在 2025 年中,需结合最新多模态 RL 工作
  • 非开箱产品,需理解训练流程
来源:README.md(首段、Features、Update);GitHub pushed_at

最新版本

本页未列出严格版本号;VLM-R1 持续迭代(最近更新约 2025 年中),里程碑包括技术报告(arXiv 2504.07615)、OVD 任务与多种奖励、REC 流程统一到 grpo_jsonl、自定义奖励支持,以及昇腾(vllm-ascend / JD xllm)部署优化。更新以 RL 训练方法、任务与部署为主。

来源:README.md(Update 时间线、技术报告)

总结评价

VLM-R1 把 DeepSeek-R1 的「纯 RL 激发推理」推广到视觉语言模型,是较早且稳定的开源实现:用 GRPO 训练 VLM、实证 RL 比 SFT 域外泛化更好、有技术报告,训练配置灵活(全参/LoRA/多节点/多图)、支持 QwenVL/InternVL 与自定义奖励,还做了昇腾部署优化。对做多模态 RL 研究的团队很有价值。要清楚它面向研究/训练、算力要求高、效果依赖任务与奖励设计、且需结合最新工作。作为 VLM 的 R1 式 RL 训练框架,它前沿、扎实、可复现。

来源:综合 README.md 的 RL 训练定位、实证发现与工程支持
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 15:34. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件