MolmoAct2 是什么？Allen AI 可部署 VLA 模型详解（270↑ / 7 基准评测）

为什么这篇论文值得关注

过去两年 VLA（Vision-Language-Action）模型快速发展，但真正能落到生产线、家庭场景的几乎没有。MolmoAct2 在 abstract 第一段就直白指出当前 VLA 的"四个不及格"——前沿模型闭源、开源 weight 模型绑定昂贵硬件、推理增强策略延迟过高、微调成功率达不到部署门槛。

这篇论文的价值不在某项理论突破，而在系统性地针对"部署"这件事做工程优化，并且把所有改动开源——这是 Ai2（Allen Institute for AI）一贯的风格。从 OLMo、Molmo 到 MolmoAct，Ai2 正在构建一条"全开放"的基础模型路线，MolmoAct2 是这条路线在机器人方向的最新进展。

论文在 HuggingFace Papers 拿到 270 票，是 2026 年 W18-W19 半月版的最高票论文。在 VLA 这个相对小众的方向能拿到这个票数，说明研究和产业界都在关注"可部署的 VLA 长什么样"。

五项核心升级

升级 1 / 视觉主干

MolmoER：专为空间与具身推理的 VLM 主干

MolmoER 是基于 Ai2 Molmo 系列的新版本 VLM 主干，针对空间推理和具身推理两个 VLA 必备能力做了重新训练。相比通用 VLM（如 GPT-4V、Qwen-VL）专注于"看图答题"，MolmoER 强化了对物体三维位置、操作可行性、动作后果的理解。

升级 2 / 三个新数据集

包括 720 小时双臂遥操作数据集 MolmoAct2-BimanualYAM

论文发布了三个数据集，其中最重要的是 MolmoAct2-BimanualYAM——720 小时的双臂机器人遥操作轨迹。双臂操作是机器人 VLA 的硬骨头（左右臂协调、避碰、共操物体），高质量遥操作数据稀缺。整个训练语料库规模约 3.3M 样本。

升级 3 / 动作分词器

OpenFAST：开源的动作分词器

OpenFAST 是一个开源动作分词器，把连续的机器人动作（关节角度、末端位姿等）转化为 token 序列，让 VLA 模型能像处理文本一样处理动作。相比闭源的动作 tokenizer，OpenFAST 让社区可以独立训练、微调自己的 VLA 模型，是 Ai2 "全开放"策略的关键拼图。

升级 4 / 架构重设计

连续动作专家：flow-matching + KV cache 条件化

MolmoAct2 把动作预测设计为流匹配（flow-matching）连续动作专家，而不是传统的离散动作分类。配合 KV cache 条件化架构，模型既能产出连续平滑的轨迹，又能保持实时推理性能。这是"延迟"和"控制平滑度"两个工业指标的关键。

升级 5 / 自适应深度推理

MolmoThink：按任务难度动态分配推理深度

MolmoThink 让 VLA 根据任务难度自适应分配推理深度——简单的"抓杯子"用浅推理（低延迟），复杂的"双臂协作叠衣服"用深推理（高质量）。这解决了传统"推理增强 VLA 延迟过高"的核心痛点：不再无差别地为所有任务付出最高推理代价。

对标的前沿模型

论文跨 7 个仿真和现实世界基准，明确对标这些前沿 VLA：

模型	开源情况	团队	定位
MolmoAct2（本文）	完全开源（模型 + 数据 + 分词器）	Allen Institute for AI	可部署 VLA 全栈方案
Pi-05	有限开放	Physical Intelligence	商业前沿 VLA
GPT-5	闭源 API	OpenAI	通用大模型用于 VLA
Gemini Robotics ER-1.5	闭源	Google DeepMind	谷歌机器人 VLA

需要诚实说明：论文 abstract 提到"开放 VLA 史上最大规模实证研究"，但未给出与各对手的具体数值对比表——具体的成功率、延迟数字需要看论文正文。

它能用来做什么

家庭/服务机器人：可部署 + 低延迟特性适合家用场景，比如双臂叠衣服、整理桌面。
工业柔性装配线：双臂遥操作数据让模型擅长协作任务，可用于电子产品装配、轻量组装。
VLA 研究复现基线：因为完全开源（模型 + 数据 + 分词器），可作为学术界的标准 baseline，类似 OLMo 在 LLM 领域的作用。
定制化机器人产品：OpenFAST 让中小机器人公司可以基于自己的机型微调 VLA，不再依赖闭源黑盒。

当前局限

1. abstract 未给出与 SOTA 的定量对比数字。 只说做了"史上最大规模实证研究"，具体的成功率、延迟数值要看论文 PDF 正文。

2. 真实硬件门槛仍存在。 论文强调"可部署"，但实际推理需要的 GPU 配置、机器人硬件兼容性范围未在 abstract 详细说明。

3. MolmoThink 自适应推理的判断标准未公开细节。 如何决定"任务难度"从而分配推理深度，是工程上很关键的细节，需要看论文正文。

4. 720h 双臂遥操作数据仍偏少。 相比文本/视觉领域的数据规模，720h 在双臂任务上的覆盖广度有限，可能在长尾场景上仍有瓶颈。

作者与机构

论文有 29 位作者，部分核心作者包括 Haoquan Fang、Jiafei Duan、Donovan Clay、Sam Wang、Shuo Liu 等。主导单位是 Allen Institute for AI（Ai2）——这家由微软联合创始人 Paul Allen 创立的非营利 AI 研究机构，近年以"全开放"路线在 LLM 和机器人方向都有重要工作（OLMo、Molmo、MolmoAct 系列）。

项目主页发布在 allenai.org/blog/molmoact2。

资源链接

论文：arXiv:2605.02881v2
Ai2 项目主页：allenai.org/blog/molmoact2
HuggingFace Papers：huggingface.co/papers/2605.02881（270 upvotes）

总结评价

MolmoAct2 的价值不在于"刷过 GPT-5"——abstract 没承诺这件事。它的价值在于把 VLA 的所有部署相关问题（视觉主干、动作分词器、连续动作架构、自适应推理）都做了开源实现，给 VLA 研究和产业落地提供了一份完整的"可部署参考栈"。

结合上一期 W18-W19 周报里的 RLDX-1（同期机器人 VLA 工作），可以看出整个 VLA 方向正在从"通用大模型能不能控制机器人"这种 demo 阶段，进入"在真实工业指标下能不能用"的工程化阶段。MolmoAct2 是这条路线上目前最完整的开源参考实现。

关于本页：本文是恩筑 AI 研究团队对 MolmoAct2 论文（arXiv:2605.02881v2）的中文深度解读，基于论文 abstract 和 Ai2 项目主页公开信息撰写。事实性陈述均可追溯到 arXiv 和 allenai.org，定性判断代表团队观点，仅供参考。如有事实错误欢迎反馈到 contact@ngjoo.com。

MolmoAct2 是什么？Allen AI 可部署 VLA 模型详解