MolmoAct2 是什么?Allen AI 可部署 VLA 模型详解

arXiv:2605.02881 2026-05-08 发布 👍 270 upvotes(W18-W19 第一) Allen Institute for AI 7 基准评测

MolmoAct2 是 Allen Institute for AI(Ai2)2026 年 5 月发布的可部署视觉-语言-动作(VLA)模型,针对真实世界部署所需的延迟、硬件成本和微调成功率三大工业指标做了系统性优化。论文进行了"开放 VLA 史上最大规模实证研究"——跨 7 个仿真和现实基准,对标 Pi-05、GPT-5、Gemini Robotics ER-1.5 等闭源前沿模型。

为什么这篇论文值得关注

过去两年 VLA(Vision-Language-Action)模型快速发展,但真正能落到生产线、家庭场景的几乎没有。MolmoAct2 在 abstract 第一段就直白指出当前 VLA 的"四个不及格"——前沿模型闭源、开源 weight 模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。

这篇论文的价值不在某项理论突破,而在系统性地针对"部署"这件事做工程优化,并且把所有改动开源——这是 Ai2(Allen Institute for AI)一贯的风格。从 OLMo、Molmo 到 MolmoAct,Ai2 正在构建一条"全开放"的基础模型路线,MolmoAct2 是这条路线在机器人方向的最新进展。

论文在 HuggingFace Papers 拿到 270 票,是 2026 年 W18-W19 半月版的最高票论文。在 VLA 这个相对小众的方向能拿到这个票数,说明研究和产业界都在关注"可部署的 VLA 长什么样"。

五项核心升级

升级 1 / 视觉主干

MolmoER:专为空间与具身推理的 VLM 主干

MolmoER 是基于 Ai2 Molmo 系列的新版本 VLM 主干,针对空间推理具身推理两个 VLA 必备能力做了重新训练。相比通用 VLM(如 GPT-4V、Qwen-VL)专注于"看图答题",MolmoER 强化了对物体三维位置、操作可行性、动作后果的理解。

升级 2 / 三个新数据集

包括 720 小时双臂遥操作数据集 MolmoAct2-BimanualYAM

论文发布了三个数据集,其中最重要的是 MolmoAct2-BimanualYAM——720 小时的双臂机器人遥操作轨迹。双臂操作是机器人 VLA 的硬骨头(左右臂协调、避碰、共操物体),高质量遥操作数据稀缺。整个训练语料库规模约 3.3M 样本。

升级 3 / 动作分词器

OpenFAST:开源的动作分词器

OpenFAST 是一个开源动作分词器,把连续的机器人动作(关节角度、末端位姿等)转化为 token 序列,让 VLA 模型能像处理文本一样处理动作。相比闭源的动作 tokenizer,OpenFAST 让社区可以独立训练、微调自己的 VLA 模型,是 Ai2 "全开放"策略的关键拼图。

升级 4 / 架构重设计

连续动作专家:flow-matching + KV cache 条件化

MolmoAct2 把动作预测设计为流匹配(flow-matching)连续动作专家,而不是传统的离散动作分类。配合 KV cache 条件化架构,模型既能产出连续平滑的轨迹,又能保持实时推理性能。这是"延迟"和"控制平滑度"两个工业指标的关键。

升级 5 / 自适应深度推理

MolmoThink:按任务难度动态分配推理深度

MolmoThink 让 VLA 根据任务难度自适应分配推理深度——简单的"抓杯子"用浅推理(低延迟),复杂的"双臂协作叠衣服"用深推理(高质量)。这解决了传统"推理增强 VLA 延迟过高"的核心痛点:不再无差别地为所有任务付出最高推理代价。

对标的前沿模型

论文跨 7 个仿真和现实世界基准,明确对标这些前沿 VLA:

模型开源情况团队定位
MolmoAct2(本文)完全开源(模型 + 数据 + 分词器)Allen Institute for AI可部署 VLA 全栈方案
Pi-05有限开放Physical Intelligence商业前沿 VLA
GPT-5闭源 APIOpenAI通用大模型用于 VLA
Gemini Robotics ER-1.5闭源Google DeepMind谷歌机器人 VLA

需要诚实说明:论文 abstract 提到"开放 VLA 史上最大规模实证研究",但未给出与各对手的具体数值对比表——具体的成功率、延迟数字需要看论文正文。

它能用来做什么

当前局限

1. abstract 未给出与 SOTA 的定量对比数字。 只说做了"史上最大规模实证研究",具体的成功率、延迟数值要看论文 PDF 正文。

2. 真实硬件门槛仍存在。 论文强调"可部署",但实际推理需要的 GPU 配置、机器人硬件兼容性范围未在 abstract 详细说明。

3. MolmoThink 自适应推理的判断标准未公开细节。 如何决定"任务难度"从而分配推理深度,是工程上很关键的细节,需要看论文正文。

4. 720h 双臂遥操作数据仍偏少。 相比文本/视觉领域的数据规模,720h 在双臂任务上的覆盖广度有限,可能在长尾场景上仍有瓶颈。

作者与机构

论文有 29 位作者,部分核心作者包括 Haoquan Fang、Jiafei Duan、Donovan Clay、Sam Wang、Shuo Liu 等。主导单位是 Allen Institute for AI(Ai2)——这家由微软联合创始人 Paul Allen 创立的非营利 AI 研究机构,近年以"全开放"路线在 LLM 和机器人方向都有重要工作(OLMo、Molmo、MolmoAct 系列)。

项目主页发布在 allenai.org/blog/molmoact2

资源链接

总结评价

MolmoAct2 的价值不在于"刷过 GPT-5"——abstract 没承诺这件事。它的价值在于把 VLA 的所有部署相关问题(视觉主干、动作分词器、连续动作架构、自适应推理)都做了开源实现,给 VLA 研究和产业落地提供了一份完整的"可部署参考栈"。

结合上一期 W18-W19 周报里的 RLDX-1(同期机器人 VLA 工作),可以看出整个 VLA 方向正在从"通用大模型能不能控制机器人"这种 demo 阶段,进入"在真实工业指标下能不能用"的工程化阶段。MolmoAct2 是这条路线上目前最完整的开源参考实现。

关于本页:本文是恩筑 AI 研究团队对 MolmoAct2 论文(arXiv:2605.02881v2)的中文深度解读,基于论文 abstract 和 Ai2 项目主页公开信息撰写。事实性陈述均可追溯到 arXiv 和 allenai.org,定性判断代表团队观点,仅供参考。如有事实错误欢迎反馈到 contact@ngjoo.com