论文信息
MetaClaw: Just Talk — An Agent That Meta-Learns and Evolves in the Wild
作者:Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu 等
👍 116 upvotes   📚 cs.LG   📅 2026-03-17
HuggingFacearXivGitHub

核心问题:部署后的 Agent 为什么会"退化"?

LLM Agent 在生产环境中面临一个根本性矛盾:用户需求在持续变化,但 Agent 的能力在部署后基本固化

在 OpenClaw 这样的平台上,Agent 需要处理 20+ 渠道的多样化工作负载。随着时间推移,任务分布会发生漂移——上周的热门请求和本周的完全不同。但传统的 Agent 系统只有两个选择:

现有的解决方案也各有局限:

MetaClaw 的解法:双机制持续进化

MetaClaw 的核心洞察是:Agent 的进化应该有两个时间尺度——快的应对当下,慢的积累能力。对应地,它设计了两个互补机制:

机制一:技能驱动快速适应(Skill-Driven Fast Adaptation)

当 Agent 在某个任务上失败时,MetaClaw 不是简单记录失败,而是让一个 LLM Evolver 分析失败轨迹,从中提炼出可复用的行为技能(behavioral skills)。这些技能会立即加入技能库,Agent 下次遇到类似场景时就能调用。

关键特性:零停机。整个过程不需要梯度更新,不需要重启服务,技能合成完成后立即生效。

机制二:机会性策略优化(Opportunistic Policy Optimization)

在用户不活跃的窗口期(比如深夜),MetaClaw 会触发基于梯度的深层更新:通过云端 LoRA 微调和基于过程奖励模型的强化学习(RL-PRM),对基础策略进行优化。

这里引入了一个巧妙的设计——机会性元学习调度器(OMLS):它监控系统的空闲状态和日历数据,自动在不影响用户体验的时间窗口触发训练,实现"白天服务,夜间进化"。

双机制如何互相增强?

基础策略(LLM Policy) 快:技能驱动适应 失败轨迹 → LLM 分析 → 合成新技能 → 立即生效 零停机 ⚡ 慢:机会性策略优化 LoRA 微调 + RL-PRM OMLS 调度空闲窗口执行 深度更新 🌙 技能库(Skills) 训练数据 技能注入 更好的轨迹 训练素材 失败轨迹 技能丰富 → 数据质量↑ 版本控制隔离数据

正向循环:优化后的策略 → 生成更高质量的交互轨迹 → 更好的技能合成素材 → 更丰富的技能库 → 更高质量的训练数据 → 更好的策略优化。

为了防止数据污染,MetaClaw 使用版本控制机制分离 support data 和 query data,确保训练数据的清洁性。

架构设计:不需要本地 GPU

MetaClaw 采用基于代理的架构(proxy-based architecture),所有计算密集型操作(LoRA 微调、RL-PRM 训练)都在云端完成。这意味着:

实验结果

MetaClaw 在两个基准上进行了评估:

值得注意的是,准确率从 21.4% 提升到 40.6%(提升约 90%),说明持续进化带来的增益是实质性的,尤其是在这类具有挑战性的评估任务上。

OpenClaw 生态的连续叙事

从我们的观察来看,把 MetaClaw 放在 OpenClaw 平台的整体脉络中,可以看到一条值得关注的技术演进方向:

从在线学习到元学习,OpenClaw 平台上的这两项工作展示了 Agent 持续进化的可行路径。这也引出一个值得思考的趋势:Agent 的价值可能不再仅由部署时的能力决定,而是由其持续适应和进化的上限决定

对实践者的启示

想实时追踪 OpenClaw 等 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据和 arXiv 原文生成初稿,经恩筑AI研究团队审核后发布。论文信息来源为 HuggingFace Papers 和 arXiv,解读代表团队观点,仅供参考。