本周三个趋势

1. Agent 评测与技能演化进入系统化阶段
SkillClaw(218↑)提出技能集体演化机制,通过聚合多用户交互让 Agent 的 skill 库自发进化,避免重复发明轮子。ClawBench(140↑)构建了 153 个真实网站任务,评估 Agent 完成日常在线任务的能力,结果显示当前最强模型完成率仅约 40%。Claw-Eval(109↑)则从评测方法论角度提出过程级评测,解决"只看结果不看过程"的评测缺陷。RAGEN-2(52↑)诊断了多轮 RL Agent 训练中的"推理崩溃"现象——模型学会了模板化输出但失去了对输入的真正推理。四篇论文合在一起,构成了 Agent 从"能不能用"到"如何科学评估和持续进化"的完整方法论。
2. 视觉生成从像素走向过程可控
SpatialEdit(888↑)是本周绝对的最热论文,建立了图像空间编辑的首个系统化基准,证明当前模型在精细空间操控上仍有巨大提升空间。NUMINA(107↑)用无训练的 identify-then-guide 框架解决文生视频中"数量不对"的老大难问题。Think in Strokes(60↑)更具启发性——让多模态模型像画家一样分步作画,每一步都基于当前视觉状态进行推理,而非一次性生成整张图。从空间编辑、数量对齐到过程驱动,视觉生成正在从"像素级端到端"走向"可解释、可控制的结构化过程"。
3. 具身智能与世界模型走向统一标准
HY-Embodied-0.5(146↑)是腾讯推出的具身基础模型系列,2B 版本可以部署在边缘设备上,32B 版本支持复杂推理——这是首个明确考虑"端侧部署"的具身基础模型。OpenWorldLib(197↑)则从定义层面出发,终结了世界模型概念的混乱状态,提出了统一的数学定义和标准化推理框架。当具身模型有了边缘部署能力,世界模型有了统一定义,"从感知到行动"的完整闭环基础设施正在成型。

本周精选论文(8 篇)

1. SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

👍 888 upvotes 📚 cs.CV 📅 2026-04-06
提出图像空间编辑基准与16B基线模型
解决什么问题:现有图像编辑模型在精细空间操控(旋转、缩放、位移、透视变换)上缺乏系统评估。
核心方法:构建包含多种空间变换类型的评测基准,训练 16B 参数基线模型,系统评估当前模型的几何驱动变换能力。
为什么值得关注:W15 绝对最热。空间编辑是图像生成从"创造"走向"精确控制"的关键能力,基准的建立将加速这一方向的研究。
空间编辑图像生成基准评测几何变换

2. Rethinking Generalization in Reasoning SFT

👍 226 upvotes 📚 cs.CL 📅 2026-04-08
推理SFT泛化非绝对,取决于优化、数据和模型能力
解决什么问题:业界流行"SFT 只会记忆、RL 才能泛化"的叙事,但缺乏严谨验证。
核心方法:系统实验证明推理 SFT 的跨域泛化并非缺失,而是有条件的——取决于优化策略、数据多样性和模型基础能力三个因素的联合作用。
为什么值得关注:直接挑战主流叙事。对于选择后训练策略的团队,这篇论文提供了更务实的决策框架:不是"SFT vs RL"的二选一,而是"什么条件下 SFT 也能泛化"。
SFT泛化推理强化学习后训练

3. Video-MME-v2

👍 225 upvotes 📚 cs.CV 📅 2026-04-06
分层级评测视频理解的权威基准第二版
解决什么问题:现有视频理解基准已饱和,排行榜分数虚高与真实能力之间差距越来越大。
核心方法:设计分层评测体系,覆盖从短片段理解到长视频推理的多个难度级别,揭示模型在复杂场景下的真实表现。
为什么值得关注:"Benchmark 饱和"是 AI 评测领域的系统性问题。V2 通过更严格的分层设计提高了区分度,为视频理解研究提供更可靠的信号。
视频理解基准评测多模态分层评测

4. SkillClaw: Let Skills Evolve Collectively

👍 218 upvotes 📚 cs.AI 📅 2026-04-09
通过聚合多用户交互实现 Agent 技能集体演化
解决什么问题:LLM Agent 的技能在部署后是静态的,用户反复发现相同的工作流和失败模式。
核心方法:引入 Agentic Evolver 机制,自动聚合多用户的交互经验,让技能库在集体使用中持续进化——类似开源社区的"众包改进"但由 AI 自动执行。
为什么值得关注:从"手工维护技能"到"技能自我进化"是 Agent 生态的关键跃迁。这个思路对所有基于 skill/plugin 架构的 Agent 系统都有启发。
Agent技能演化多用户协作自进化

5. OpenWorldLib: Unified Definition of Advanced World Models

👍 197 upvotes 📚 cs.AI 📅 2026-04-06
提出世界模型统一定义及标准化推理框架
解决什么问题:世界模型研究热度高但定义混乱,不同研究组对"世界模型是什么"有不同理解。
核心方法:提出统一数学定义,建立标准化推理框架 OpenWorldLib,让不同世界模型可以在同一框架下对比和复现。
为什么值得关注:学科成熟的标志是概念的统一。这篇论文做的就是为世界模型领域建立"公共语言",长期价值高。
世界模型统一定义标准化推理框架

6. HY-Embodied-0.5

👍 146 upvotes 📚 cs.RO 📅 2026-04-08
腾讯推出 2B/32B 具身智能基础模型,支持边缘部署
解决什么问题:通用 VLM 在具身任务上表现不足,且大模型无法部署到机器人等边缘设备。
核心方法:专门为具身场景设计的基础模型系列,2B 版本适配边缘设备算力约束,32B 版本保留复杂推理能力,两者共享训练框架。
为什么值得关注:首个明确考虑"端侧部署"的具身基础模型。当机器人、无人车等设备能本地运行 2B 具身模型时,延迟和隐私问题将大幅缓解。
具身智能基础模型边缘部署VLM腾讯

7. ClawBench: Can AI Agents Complete Everyday Online Tasks?

👍 140 upvotes 📚 cs.AI 📅 2026-04-09
153 个真实网站任务评测 Agent 日常在线能力
解决什么问题:AI Agent 号称能自动化日常工作,但在真实网站(而非模拟环境)上的表现如何缺乏系统评测。
核心方法:构建 153 个横跨购物、社交、办公等场景的真实网站任务,在活跃网站上端到端评测多个主流 Agent。
为什么值得关注:把 Agent 评测从"实验室"搬到"真实世界"。当前最强模型约 40% 完成率的结果,清醒地揭示了 Agent 商业化还需要跨越的鸿沟。
Agent评测真实世界在线任务Web Agent

8. TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

👍 100 upvotes 📚 cs.CL 📅 2026-04-06
利用 RoPE 前 Q/K 集中性提出 TriAttention,高效压缩 KV 缓存
解决什么问题:长推理场景下 KV 缓存的内存占用是部署瓶颈。现有压缩方法依赖 post-RoPE 注意力分数估计重要性,但 RoPE 旋转使查询随位置变化,导致代表性查询稀少。
核心方法:利用 RoPE 前 Q/K 的集中特性,用三角函数方法压缩 KV 缓存,在保持推理质量的同时大幅减少内存占用。
为什么值得关注:长推理(如 o1 风格 CoT)是当前趋势,KV 缓存压缩直接决定推理效率和成本。TriAttention 的方法简洁优雅且效果显著。
KV缓存压缩长推理RoPE注意力机制效率

本周总结

本周 HuggingFace 热门论文的核心主题是:AI 系统从"做得好"走向"评得准、控得住"。Agent 领域不再只追求更强的单点能力,而是建立起从技能演化(SkillClaw)、真实世界评测(ClawBench)到过程级评估(Claw-Eval)的完整方法论体系;视觉生成不再满足于端到端像素输出,而是追求空间可控(SpatialEdit)、数量可控(NUMINA)和过程可控(Think in Strokes)的结构化路径。

尤其值得关注的是 Agent 评测体系的成型——当 ClawBench 揭示最强模型在真实网站任务上仅有约 40% 完成率时,这不是坏消息,而是好消息:只有准确的评测才能指引正确的改进方向。SkillClaw 的技能集体演化则提供了一条"众包进化"的改进路径,与 W14 的 SKILL0 技能内化形成互补——前者解决"技能从哪里来",后者解决"技能如何固化"。

底层基础设施方面,OpenWorldLib 为世界模型建立统一定义、HY-Embodied 首次考虑具身模型的端侧部署、TriAttention 用优雅的方法压缩长推理 KV 缓存——这些看似独立的工作,实际上都在为"AI 从实验室走向真实世界"铺设基础设施。Rethinking Generalization in Reasoning SFT 则提醒我们:在技术选型上保持务实,不被"SFT vs RL"的二元叙事所束缚。

想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-04-11 18:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。