本周三个趋势
SkillClaw(218↑)提出技能集体演化机制,通过聚合多用户交互让 Agent 的 skill 库自发进化,避免重复发明轮子。ClawBench(140↑)构建了 153 个真实网站任务,评估 Agent 完成日常在线任务的能力,结果显示当前最强模型完成率仅约 40%。Claw-Eval(109↑)则从评测方法论角度提出过程级评测,解决"只看结果不看过程"的评测缺陷。RAGEN-2(52↑)诊断了多轮 RL Agent 训练中的"推理崩溃"现象——模型学会了模板化输出但失去了对输入的真正推理。四篇论文合在一起,构成了 Agent 从"能不能用"到"如何科学评估和持续进化"的完整方法论。
SpatialEdit(888↑)是本周绝对的最热论文,建立了图像空间编辑的首个系统化基准,证明当前模型在精细空间操控上仍有巨大提升空间。NUMINA(107↑)用无训练的 identify-then-guide 框架解决文生视频中"数量不对"的老大难问题。Think in Strokes(60↑)更具启发性——让多模态模型像画家一样分步作画,每一步都基于当前视觉状态进行推理,而非一次性生成整张图。从空间编辑、数量对齐到过程驱动,视觉生成正在从"像素级端到端"走向"可解释、可控制的结构化过程"。
HY-Embodied-0.5(146↑)是腾讯推出的具身基础模型系列,2B 版本可以部署在边缘设备上,32B 版本支持复杂推理——这是首个明确考虑"端侧部署"的具身基础模型。OpenWorldLib(197↑)则从定义层面出发,终结了世界模型概念的混乱状态,提出了统一的数学定义和标准化推理框架。当具身模型有了边缘部署能力,世界模型有了统一定义,"从感知到行动"的完整闭环基础设施正在成型。
本周精选论文(8 篇)
1. SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
核心方法:构建包含多种空间变换类型的评测基准,训练 16B 参数基线模型,系统评估当前模型的几何驱动变换能力。
2. Rethinking Generalization in Reasoning SFT
核心方法:系统实验证明推理 SFT 的跨域泛化并非缺失,而是有条件的——取决于优化策略、数据多样性和模型基础能力三个因素的联合作用。
3. Video-MME-v2
核心方法:设计分层评测体系,覆盖从短片段理解到长视频推理的多个难度级别,揭示模型在复杂场景下的真实表现。
4. SkillClaw: Let Skills Evolve Collectively
核心方法:引入 Agentic Evolver 机制,自动聚合多用户的交互经验,让技能库在集体使用中持续进化——类似开源社区的"众包改进"但由 AI 自动执行。
5. OpenWorldLib: Unified Definition of Advanced World Models
核心方法:提出统一数学定义,建立标准化推理框架 OpenWorldLib,让不同世界模型可以在同一框架下对比和复现。
6. HY-Embodied-0.5
核心方法:专门为具身场景设计的基础模型系列,2B 版本适配边缘设备算力约束,32B 版本保留复杂推理能力,两者共享训练框架。
7. ClawBench: Can AI Agents Complete Everyday Online Tasks?
核心方法:构建 153 个横跨购物、社交、办公等场景的真实网站任务,在活跃网站上端到端评测多个主流 Agent。
8. TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
核心方法:利用 RoPE 前 Q/K 的集中特性,用三角函数方法压缩 KV 缓存,在保持推理质量的同时大幅减少内存占用。
本周总结
本周 HuggingFace 热门论文的核心主题是:AI 系统从"做得好"走向"评得准、控得住"。Agent 领域不再只追求更强的单点能力,而是建立起从技能演化(SkillClaw)、真实世界评测(ClawBench)到过程级评估(Claw-Eval)的完整方法论体系;视觉生成不再满足于端到端像素输出,而是追求空间可控(SpatialEdit)、数量可控(NUMINA)和过程可控(Think in Strokes)的结构化路径。
尤其值得关注的是 Agent 评测体系的成型——当 ClawBench 揭示最强模型在真实网站任务上仅有约 40% 完成率时,这不是坏消息,而是好消息:只有准确的评测才能指引正确的改进方向。SkillClaw 的技能集体演化则提供了一条"众包进化"的改进路径,与 W14 的 SKILL0 技能内化形成互补——前者解决"技能从哪里来",后者解决"技能如何固化"。
底层基础设施方面,OpenWorldLib 为世界模型建立统一定义、HY-Embodied 首次考虑具身模型的端侧部署、TriAttention 用优雅的方法压缩长推理 KV 缓存——这些看似独立的工作,实际上都在为"AI 从实验室走向真实世界"铺设基础设施。Rethinking Generalization in Reasoning SFT 则提醒我们:在技术选型上保持务实,不被"SFT vs RL"的二元叙事所束缚。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-04-11 18:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。