本周三个趋势
Qwen-AgentWorld(137↑)是本周最高票论文,发布 35B-A3B / 397B-A17B 两个规模的语言世界模型——首次在语言空间里通过 Long-CoT 推理模拟 7 个不同领域的环境动态。In-Context World Modeling(50↑)从物理侧切入:把 robot 系统识别(相机视角变化、机器人形态变化)变成 in-context adaptation 问题,避免每个新设备都要重训。Wan-Streamer(95↑)则是另一条路径——把 VAD/ASR/LM/TTS/动画驱动 5 个 pipeline 合并进单个 Transformer,做端到端流式音视频交互。三篇组合释放的判断:基础模型范式正在从「单一感知 + 工具调用」走向「内部模拟环境 / 跨上下文泛化 / 端到端多模态」三种新形态,Agent 不再只是「调用 LLM」,而是「LLM 自己就是一个微型仿真器」。
本周一下子涌现 5 篇 Agent 工程化论文。评测侧:EnterpriseClawBench(80↑)把 852 个真实企业 workplace 会话变成可复现 task,每个 task 附 fixture / 角色分类 / 硬规则 / 语义 rubric;NatureBench(61↑)则把评测难度显著抬高——从 90 篇 Nature 系刊论文蒸馏 task,禁用 web search,问的是 Coding Agent 能不能从「复现」走到「发现」。训练范式侧:EDV(51↑)诊断了单 Agent 经验学习的「Self-Confirmation Trap」——错的但自洽的轨迹被当成正确经验,提出 Execute-Distill-Verify 框架:多个异构执行者并行跑 trajectory,第三方蒸馏者产出候选经验,再由执行组通过共识机制验证后才写入 memory;OPID(46↑)用 on-policy skill distillation 避开外部 skill memory 的失配;OT-Agent(45↑)做了 100+ ablation 公开完整的 agentic data curation pipeline。共同传递的判断:本周高票论文显示,Agent 评测、训练与系统工程正在明显升温,这条线值得持续跟踪。
Agent-Native Memory System(105↑)本周第二高票,研究焦点不在「memory 能不能做」而在「memory 系统该怎么评估」:跳出端到端任务成功率(F1/BLEU)框架,把存储、检索、更新、合并、生命周期管理拆开看,关注 cost / architecture / module trade-off——把 memory 当作有内部结构的系统而不是黑盒。KaLM-Reranker-V1(47↑)从 RAG 工程侧呼应:解耦 query 和 passage 计算,encoder 用 Matryoshka 池化预编码 passage、decoder 处理 query,让 reranker 部署效率拉上来。这条线和我们刚发的 Headroom 中文使用教程 是同一脉络——本地上下文压缩、Memory 治理、RAG reranker 都从「能用就行」走向「按系统指标评估和优化」。
本周精选论文(8 篇)
1. Qwen-AgentWorld: Language World Models for General Agents
核心方法:Qwen-AgentWorld 用 Long-CoT 推理在语言空间直接建模 7 个不同领域的 agentic 环境(基于 10M+ 环境样本训练),发布 35B-A3B / 397B-A17B 两个规模,让 Agent 在做决策前可以在内部「模拟一下」结果再行动。
2. Are We Ready For An Agent-Native Memory System?
核心方法:提出 Agent-Native Memory 系统评测框架,从 system 视角拆开每个 memory 组件分别度量,让架构决策有数据支撑。
3. Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
核心方法:Wan-Streamer 把语言、音频、视频作为单 Transformer的输入和输出,通过 block-causal attention 做增量流式编排,原生支持低延迟、全双工的实时音视频交互。
4. EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
核心方法:EnterpriseClawBench 从大量企业 workplace session 蒸馏出 852 个可复现 task,每个 task 配套:recovered fixtures(执行环境)、rewritten prompts(脱敏后任务描述)、role classes(角色分类)、skill subclasses(技能子类)、hard rules(硬性约束)、semantic rubrics(语义评分)。因 session 含企业内部内容不公开数据,但发布完整复现方法论。
5. NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
核心方法:NatureBench 跨学科取 peer-reviewed Nature 系刊 90 个 task,配套 NatureGym 自动给每个 task 起独立容器(避免环境碎片化让评测不可信)。严格禁用 web search,对 10 个前沿 Agent 配置评测「能否从论文 + 数据走到 SOTA 复现/超越」。
6. Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning
核心方法:提出 EDV(Execute-Distill-Verify)框架——多个异构执行者并行跑 trajectory、第三方蒸馏者分析轨迹产出候选经验、再由执行组通过共识机制验证后才写入 memory,避免单 Agent 回路里「自己当裁判」的失真。
7. In-Context World Modeling for Robotic Control
核心方法:ICWM 把系统识别变成 in-context adaptation 问题——给模型一段新系统上的自生成、任务无关的交互历史作为 context,让模型推断 system variables,无需参数更新即可适配。
8. KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking
核心方法:KaLM-Reranker-V1 提出 Fast-But-Not-Late(FBNL)interaction——encoder-decoder 架构,encoder 用 Matryoshka embedding pooling 预编码 passage(可缓存),decoder 处理 query 时只做轻量交互。既保留表达力,又把 throughput 拉上来。
本周总结
W26 三条主线叠在一起,呈现一个比较清晰的本周判断:W26 是 Agent 工程化信号非常集中的一周。
基础模型层面,Qwen-AgentWorld 以 137 票成为本周最高,把「世界模型」概念正式引入语言模型骨架——配合 ICWM 把同一思路迁到机器人控制、Wan-Streamer 把音视频 pipeline 端到端化,三篇组合释放的信号是:基础模型范式不再只往规模化方向卷,而是分化出「内部模拟 / 跨上下文 / 端到端多模态」三种新形态。Agent 不再是「LLM + 工具」,LLM 自己开始变成可以模拟环境的微型仿真器。
Agent 工程化层面,本周一下子涌现 5 篇评测和训练范式论文——EnterpriseClawBench 把评测拉到真实企业场景、NatureBench 把难度抬到科研复现、EDV 处理 self-confirmation trap、OPID 升级 on-policy 自蒸馏、OT-Agent 公开 100+ ablation 的数据 recipe。下半年值得重点观察的一条主线,是 Agent 能否在真实任务、严苛评测和可重复流程下稳定工作。
系统化层面,Agent-Native Memory 和 KaLM-Reranker 双双进入本周高票,反映的是从「黑盒能用就行」走向「按系统指标拆开评估」。这与本站刚发的 Headroom 中文使用教程(本地上下文压缩)属同一脉络——Memory / RAG / context compression 这条「LLM 应用最贵的隐性成本线」开始有了系统性的工程对策。
对模型训练、Agent 产品、机器人 AI、RAG 工程的团队,W26 的信号比较一致:这一周值得作为 Agent 工程化集中升温的样本记录——「能不能稳定跑、能不能严格评测、能不能按系统成本算账」逐步走向决定性差异,本周的高票论文几乎都站在后者一侧。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-06-29 10:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。