为什么这篇论文值得关注
过去两年 VLA(Vision-Language-Action)模型快速发展,但真正能落到生产线、家庭场景的几乎没有。MolmoAct2 在 abstract 第一段就直白指出当前 VLA 的"四个不及格"——前沿模型闭源、开源 weight 模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。
这篇论文的价值不在某项理论突破,而在系统性地针对"部署"这件事做工程优化,并且把所有改动开源——这是 Ai2(Allen Institute for AI)一贯的风格。从 OLMo、Molmo 到 MolmoAct,Ai2 正在构建一条"全开放"的基础模型路线,MolmoAct2 是这条路线在机器人方向的最新进展。
论文在 HuggingFace Papers 拿到 270 票,是 2026 年 W18-W19 半月版的最高票论文。在 VLA 这个相对小众的方向能拿到这个票数,说明研究和产业界都在关注"可部署的 VLA 长什么样"。
五项核心升级
MolmoER:专为空间与具身推理的 VLM 主干
MolmoER 是基于 Ai2 Molmo 系列的新版本 VLM 主干,针对空间推理和具身推理两个 VLA 必备能力做了重新训练。相比通用 VLM(如 GPT-4V、Qwen-VL)专注于"看图答题",MolmoER 强化了对物体三维位置、操作可行性、动作后果的理解。
包括 720 小时双臂遥操作数据集 MolmoAct2-BimanualYAM
论文发布了三个数据集,其中最重要的是 MolmoAct2-BimanualYAM——720 小时的双臂机器人遥操作轨迹。双臂操作是机器人 VLA 的硬骨头(左右臂协调、避碰、共操物体),高质量遥操作数据稀缺。整个训练语料库规模约 3.3M 样本。
OpenFAST:开源的动作分词器
OpenFAST 是一个开源动作分词器,把连续的机器人动作(关节角度、末端位姿等)转化为 token 序列,让 VLA 模型能像处理文本一样处理动作。相比闭源的动作 tokenizer,OpenFAST 让社区可以独立训练、微调自己的 VLA 模型,是 Ai2 "全开放"策略的关键拼图。
连续动作专家:flow-matching + KV cache 条件化
MolmoAct2 把动作预测设计为流匹配(flow-matching)连续动作专家,而不是传统的离散动作分类。配合 KV cache 条件化架构,模型既能产出连续平滑的轨迹,又能保持实时推理性能。这是"延迟"和"控制平滑度"两个工业指标的关键。
MolmoThink:按任务难度动态分配推理深度
MolmoThink 让 VLA 根据任务难度自适应分配推理深度——简单的"抓杯子"用浅推理(低延迟),复杂的"双臂协作叠衣服"用深推理(高质量)。这解决了传统"推理增强 VLA 延迟过高"的核心痛点:不再无差别地为所有任务付出最高推理代价。
对标的前沿模型
论文跨 7 个仿真和现实世界基准,明确对标这些前沿 VLA:
| 模型 | 开源情况 | 团队 | 定位 |
|---|---|---|---|
| MolmoAct2(本文) | 完全开源(模型 + 数据 + 分词器) | Allen Institute for AI | 可部署 VLA 全栈方案 |
| Pi-05 | 有限开放 | Physical Intelligence | 商业前沿 VLA |
| GPT-5 | 闭源 API | OpenAI | 通用大模型用于 VLA |
| Gemini Robotics ER-1.5 | 闭源 | Google DeepMind | 谷歌机器人 VLA |
需要诚实说明:论文 abstract 提到"开放 VLA 史上最大规模实证研究",但未给出与各对手的具体数值对比表——具体的成功率、延迟数字需要看论文正文。
它能用来做什么
- 家庭/服务机器人:可部署 + 低延迟特性适合家用场景,比如双臂叠衣服、整理桌面。
- 工业柔性装配线:双臂遥操作数据让模型擅长协作任务,可用于电子产品装配、轻量组装。
- VLA 研究复现基线:因为完全开源(模型 + 数据 + 分词器),可作为学术界的标准 baseline,类似 OLMo 在 LLM 领域的作用。
- 定制化机器人产品:OpenFAST 让中小机器人公司可以基于自己的机型微调 VLA,不再依赖闭源黑盒。
当前局限
1. abstract 未给出与 SOTA 的定量对比数字。 只说做了"史上最大规模实证研究",具体的成功率、延迟数值要看论文 PDF 正文。
2. 真实硬件门槛仍存在。 论文强调"可部署",但实际推理需要的 GPU 配置、机器人硬件兼容性范围未在 abstract 详细说明。
3. MolmoThink 自适应推理的判断标准未公开细节。 如何决定"任务难度"从而分配推理深度,是工程上很关键的细节,需要看论文正文。
4. 720h 双臂遥操作数据仍偏少。 相比文本/视觉领域的数据规模,720h 在双臂任务上的覆盖广度有限,可能在长尾场景上仍有瓶颈。
作者与机构
论文有 29 位作者,部分核心作者包括 Haoquan Fang、Jiafei Duan、Donovan Clay、Sam Wang、Shuo Liu 等。主导单位是 Allen Institute for AI(Ai2)——这家由微软联合创始人 Paul Allen 创立的非营利 AI 研究机构,近年以"全开放"路线在 LLM 和机器人方向都有重要工作(OLMo、Molmo、MolmoAct 系列)。
项目主页发布在 allenai.org/blog/molmoact2。
资源链接
- 论文:arXiv:2605.02881v2
- Ai2 项目主页:allenai.org/blog/molmoact2
- HuggingFace Papers:huggingface.co/papers/2605.02881(270 upvotes)
总结评价
MolmoAct2 的价值不在于"刷过 GPT-5"——abstract 没承诺这件事。它的价值在于把 VLA 的所有部署相关问题(视觉主干、动作分词器、连续动作架构、自适应推理)都做了开源实现,给 VLA 研究和产业落地提供了一份完整的"可部署参考栈"。
结合上一期 W18-W19 周报里的 RLDX-1(同期机器人 VLA 工作),可以看出整个 VLA 方向正在从"通用大模型能不能控制机器人"这种 demo 阶段,进入"在真实工业指标下能不能用"的工程化阶段。MolmoAct2 是这条路线上目前最完整的开源参考实现。