本期为 W20 与 W21 合并的半月版,覆盖 2026-05-11 至 2026-05-23 共两个 ISO 周,承接上一期半月版(截至 05-10)。

本期三个趋势

1. 评测标准从"答对"升级到"答对且可溯源"
CiteVQA(261↑)是本期最高票论文,第一句话就点破要害:现有文档问答评测只看最终答案,不检查支撑证据——模型可能"答对了,但引用的段落是错的"。在金融、医疗等高风险领域,这是致命的失败模式。CiteVQA 要求模型给出元素级(具体到段落/表格单元格)的引用证据。Perception or Prejudice(153↑)从另一个角度暴露问题:MLLM 做人格判断时常常靠"第一印象式的表层模式匹配"而非真实理解。MulTaBench(138↑)则把表格学习评测扩展到文本+图像多模态。三篇放在一起的信号清晰:评测正在补齐"可信度、可溯源、鲁棒性"维度,单看准确率的时代正在过去
2. RL 后训练进入"token 级信用分配"精细化阶段
当 RLVR(可验证奖励强化学习)成为推理模型后训练的标配后,本期一批论文开始深挖它的内部机制。DelTA(125↑)用判别器视角揭示"响应级奖励到底如何转化为 token 级概率变化",改进信用分配。Anti-Self-Distillation(187↑)用逐点互信息(PMI)分析为什么自蒸馏在数学推理上时灵时不灵,提出反向修正。Self-Distilled Agentic RL(108↑)把自蒸馏作为门控辅助目标稳定多轮 Agent 训练。Olympiad Reasoning(154↑)则用一套统一 scaling 配方把后训练模型推到 IMO/IPhO 金牌级。共同判断:RL 后训练从"轨迹级粗糙奖励"走向"token 级精细信用分配 + 机制可解释",这是推理能力继续上探的关键
3. Agent 从"单点能力"走向"基础设施 + 技能治理 + 数据规模化"系统工程
Agent 研究在本期密集出现"系统底座"层面的工作。Code as Agent Harness(196↑)提出一个根本性视角转变:代码不再只是 Agent 的输出目标,而是 Agent 推理、行动、环境建模、执行验证的统一操作基座。MinT(217↑)解决规模化训练托管——基座模型常驻、百万级 LoRA 策略热插拔,而不是每个策略都合并成完整 checkpoint。SkillsVote(122↑)治理 Agent 技能的全生命周期(收集→推荐→演化),避免开放技能生态被冗余、低质技能污染。Video2GUI(142↑)从互联网视频自动合成大规模 GUI 交互轨迹,破解 GUI Agent 数据稀缺。结论:Agent 竞争从"单个 Agent 多聪明",转向"基础设施多扎实、技能库多干净、训练数据多规模化"

本期精选论文(8 篇)

1. CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

👍 261 upvotes 📚 cs.CV 📅 2026-05-13
首个要求元素级引用的文档问答评测基准,揪出"答对但引错"的隐患
解决什么问题:多模态大模型(MLLM)的文档理解能力进步很快,但当前 Doc-VQA 评测只给最终答案打分,不检查支撑证据。这掩盖了一个关键失败模式——模型可以答对,却把答案建立在错误的段落上,在金融、医疗、法律等高风险领域风险极大。
核心方法:CiteVQA 要求模型在回答的同时给出元素级(精确到段落、表格单元格)的引用证据,并对"答案正确性"与"证据正确性"分别评分,第一次把"可溯源性"作为一等评测目标。
为什么值得关注:本期最高票论文。它把文档智能的评价标准从"答案对"升级到"证据可溯源",对所有做企业文档问答、RAG 产品的团队都是必须正视的可信度标尺。
文档智能证据溯源Doc-VQA可信AI评测基准

2. MinT: Managed Infrastructure for Training and Serving Millions of LLMs

👍 217 upvotes 📚 cs.LG 📅 2026-05-13
百万级 LoRA 策略训练与在线托管基础设施,基座常驻、LoRA 热插拔
解决什么问题:许多场景需要在少数昂贵的基座模型部署之上,产出大量 LoRA 后训练策略。如果每个策略都合并成一份完整 checkpoint,存储和切换成本会爆炸。
核心方法:MinT 让基座模型常驻显存,把导出的 LoRA adapter 作为轻量单元动态加载/卸载,实现"一套基座 + 百万级策略"的训练与在线服务托管。
为什么值得关注:随着"为每个客户/场景微调一个 LoRA"成为常见做法,规模化 LoRA 托管是绕不开的工程问题。MinT 给出了一套可借鉴的基础设施设计。
LoRA模型托管基础设施后训练MinT

3. Code as Agent Harness

👍 196 upvotes 📚 cs.AI 📅 2026-05-18
把代码从"输出目标"升级为 Agent 推理、行动、环境建模与验证的统一操作基座
解决什么问题:LLM 在代码理解和生成上已经很强,从竞赛编程到仓库级软件工程。但在新兴 Agent 系统中,代码的角色正在变化——它不再只是"要产出的结果"
核心方法:Code as Agent Harness 提出一个统一框架,把代码作为 Agent 的"操作基底"(operational substrate):用代码做推理(把思考写成可执行逻辑)、做行动(调用工具)、做环境建模、做基于执行的验证。相比纯自然语言 prompt,代码基座让 Agent 的每一步都可执行、可验证。
为什么值得关注:这是对"代码在 Agent 系统中扮演什么角色"的一次重新定义。对所有做 Code Agent、Agentic Coding 的团队,提供了一个比"prompt 工程"更扎实的系统设计范式。
Agent基座Code Agent执行验证环境建模

4. Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

👍 187 upvotes 📚 cs.LG 📅 2026-05-12
用逐点互信息分析自蒸馏在数学推理上的不稳定根因,提出反向修正
解决什么问题:在线策略自蒸馏(把学生拉向"受特权上下文(如已验证解、反馈)加持的自己")是无需更强外部教师就提升推理的有前景方向。但在数学推理上,收益时灵时不灵,即使同样方法在别处成功。
核心方法:论文用逐点互信息(PMI)视角分析这种不一致的根因,发现某些情况下"拉向特权版本的自己"反而会强化错误捷径。据此提出反向自蒸馏(anti-self-distillation)来修正优化方向,加速数学推理能力提升。
为什么值得关注:解释了一个困扰很多团队的现象——"自蒸馏方法在别的任务上 work,搬到数学推理就时好时坏"。这种机制级的诊断比单纯刷分更有长期价值。
自蒸馏强化学习数学推理互信息

5. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

👍 185 upvotes 📚 cs.CV 📅 2026-05-12
用 NEO-unify 架构原生统一多模态理解与生成,消除割裂的级联管线
解决什么问题:当前视觉语言模型仍被一个根本性的二分法束缚——理解和生成被当作两个不同问题,导致架构碎片化、级联管线、表示空间错位。论文认为这不只是工程瑕疵,而是阻碍能力涌现的结构性限制。
核心方法:SenseNova-U1 提出 NEO-unify 架构,在单一框架内原生统一理解与生成,让两者共享一致的表示空间。
为什么值得关注:这是"理解-生成统一"主线的又一重要进展(呼应此前 LLaDA2.0-Uni、LLaDA 等)。多模态模型选型正在从"理解模型 + 生成模型拼接"转向"原生统一架构"。
多模态统一理解与生成SenseNovaVLM

6. Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

👍 154 upvotes 📚 cs.CL 📅 2026-05-13
用简单统一的训练配方把后训练推理模型推到 IMO/IPhO 金牌级
解决什么问题:推理模型在长时程数学/科学问题上进步显著,已有系统在 IMO(国际数学奥赛)、IPhO(国际物理奥赛)上达到金牌级。但这些成果往往依赖复杂的技巧堆叠,难以复现。
核心方法:论文提出一套简单、统一的配方,把一个后训练推理 backbone 转化为奥赛金牌级选手,强调可复现性而非堆叠 trick。
为什么值得关注:把"奥赛金牌级推理"从少数实验室的复杂秘方,简化为可复现的统一配方,对学界和中小团队复刻顶尖推理能力意义重大。
推理模型奥赛统一配方scaling

7. Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

👍 142 upvotes 📚 cs.AI 📅 2026-05-14
从互联网视频自动提取 GUI 交互轨迹,构建大规模 GUI Agent 预训练数据
解决什么问题:GUI Agent 的泛化受限于训练数据稀缺——现有数据集严重依赖昂贵的人工标注,且通常局限在窄领域。
核心方法:Video2GUI 从海量互联网视频(教程、演示、录屏)中自动提取 GUI 交互轨迹(点击、输入、滚动等操作序列),构建覆盖多样真实应用的大规模预训练数据集,无需人工逐帧标注。
为什么值得关注:GUI Agent 是 RPA、自动化办公的核心,但数据瓶颈一直卡着泛化能力。Video2GUI 用"视频→轨迹"的规模化合成思路,可能成为 GUI Agent 预训练的主流数据来源。
GUI Agent轨迹合成数据规模化预训练

8. DelTA: Discriminative Token Credit Assignment for RL from Verifiable Rewards

👍 125 upvotes 📚 cs.LG 📅 2026-05-20
用判别器视角理解 RLVR 更新如何转化为 token 级概率变化,改进信用分配
解决什么问题:RLVR(可验证奖励强化学习)已成为提升 LLM 推理能力的核心技术,但响应级(response-level)的奖励到底如何转化成 token 级概率变化,一直缺乏理解,导致信用分配粗糙。
核心方法:DelTA 引入"判别器视角",揭示策略梯度更新方向的内在结构,据此设计更精细的 token 级信用分配机制,让奖励信号更准确地落到真正贡献正确推理的 token 上。
为什么值得关注:和 Anti-Self-Distillation 同属本期"RL 机制深挖"主线。把 RLVR 从"响应级黑箱"打开到"token 级可解释",是推理 RL 继续提升的底层方法论。
RLVRtoken信用分配强化学习DelTA

本期总结

W20-W21 这两周的论文,集中呈现了 AI 在"可信、精细、系统化"三个方向的同步深化。

评测层面,CiteVQA 用本期最高票宣告了一个转变:"答案正确"不再是终点,"证据可溯源"才是高风险场景的真正门槛。配合 Perception or Prejudice 揭示的 MLLM 表层捷径、MulTaBench 的多模态表格评测,可以看到整个评测生态正在从"刷准确率"转向"查可信度、查鲁棒性、查推理路径"。对做企业级 AI 产品的团队,这意味着 demo 跑分和生产可信之间的鸿沟会被越来越严格地度量。

训练方法层面,DelTA、Anti-Self-Distillation、Self-Distilled Agentic RL、Olympiad Reasoning 四篇组合,把 RL 后训练推进到"token 级信用分配 + 机制可解释"的精细化阶段。这与过去几个月"奖励建模结构化升级"的趋势一脉相承——当堆参数、堆数据的红利消退,真正的增量来自把每一份奖励信号用得更准。Olympiad Reasoning 则证明,在方法成熟后,顶尖推理能力可以用"简单统一配方"复现,而非少数实验室专属。

Agent 层面,Code as Agent Harness、MinT、SkillsVote、Video2GUI 四篇呈现了 Agent 系统工程的四块拼图:操作基座(代码)、训练托管(百万 LoRA)、技能治理(生命周期)、数据规模化(视频合成轨迹)。Agent 研究正彻底告别"单点能力 demo",进入"基础设施 + 治理 + 数据"三位一体的系统工程阶段。SenseNova-U1 则在多模态架构上延续了"理解-生成统一"的长期主线。

对于做模型训练、Agent 系统或多模态产品的团队,W20-W21 的判断都很明确:下一阶段的竞争不在"能不能做",而在"做得可信不可信、奖励用得精不精、系统撑不撑得起规模"——这三件事,正是从研究 demo 走向生产系统的真正分水岭。

想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-05-23 20:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。本期为 W20 与 W21 合并的半月版。