CiteVQA / Code as Agent Harness / Anti-Self-Distillation — 2026 W20-W21 AI 论文半月版（8 篇精选）

本期为 W20 与 W21 合并的半月版，覆盖 2026-05-11 至 2026-05-23 共两个 ISO 周，承接上一期半月版（截至 05-10）。

本期三个趋势

1. 评测标准从"答对"升级到"答对且可溯源"
CiteVQA（261↑）是本期最高票论文，第一句话就点破要害：现有文档问答评测只看最终答案，不检查支撑证据——模型可能"答对了，但引用的段落是错的"。在金融、医疗等高风险领域，这是致命的失败模式。CiteVQA 要求模型给出元素级（具体到段落/表格单元格）的引用证据。Perception or Prejudice（153↑）从另一个角度暴露问题：MLLM 做人格判断时常常靠"第一印象式的表层模式匹配"而非真实理解。MulTaBench（138↑）则把表格学习评测扩展到文本+图像多模态。三篇放在一起的信号清晰：评测正在补齐"可信度、可溯源、鲁棒性"维度，单看准确率的时代正在过去。

2. RL 后训练进入"token 级信用分配"精细化阶段
当 RLVR（可验证奖励强化学习）成为推理模型后训练的标配后，本期一批论文开始深挖它的内部机制。DelTA（125↑）用判别器视角揭示"响应级奖励到底如何转化为 token 级概率变化"，改进信用分配。Anti-Self-Distillation（187↑）用逐点互信息（PMI）分析为什么自蒸馏在数学推理上时灵时不灵，提出反向修正。Self-Distilled Agentic RL（108↑）把自蒸馏作为门控辅助目标稳定多轮 Agent 训练。Olympiad Reasoning（154↑）则用一套统一 scaling 配方把后训练模型推到 IMO/IPhO 金牌级。共同判断：RL 后训练从"轨迹级粗糙奖励"走向"token 级精细信用分配 + 机制可解释"，这是推理能力继续上探的关键。

3. Agent 从"单点能力"走向"基础设施 + 技能治理 + 数据规模化"系统工程
Agent 研究在本期密集出现"系统底座"层面的工作。Code as Agent Harness（196↑）提出一个根本性视角转变：代码不再只是 Agent 的输出目标，而是 Agent 推理、行动、环境建模、执行验证的统一操作基座。MinT（217↑）解决规模化训练托管——基座模型常驻、百万级 LoRA 策略热插拔，而不是每个策略都合并成完整 checkpoint。SkillsVote（122↑）治理 Agent 技能的全生命周期（收集→推荐→演化），避免开放技能生态被冗余、低质技能污染。Video2GUI（142↑）从互联网视频自动合成大规模 GUI 交互轨迹，破解 GUI Agent 数据稀缺。结论：Agent 竞争从"单个 Agent 多聪明"，转向"基础设施多扎实、技能库多干净、训练数据多规模化"。

本期精选论文（8 篇）

1. CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

👍 261 upvotes 📚 cs.CV 📅 2026-05-13

首个要求元素级引用的文档问答评测基准，揪出"答对但引错"的隐患

解决什么问题：多模态大模型（MLLM）的文档理解能力进步很快，但当前 Doc-VQA 评测只给最终答案打分，不检查支撑证据。这掩盖了一个关键失败模式——模型可以答对，却把答案建立在错误的段落上，在金融、医疗、法律等高风险领域风险极大。
核心方法：CiteVQA 要求模型在回答的同时给出元素级（精确到段落、表格单元格）的引用证据，并对"答案正确性"与"证据正确性"分别评分，第一次把"可溯源性"作为一等评测目标。

为什么值得关注：本期最高票论文。它把文档智能的评价标准从"答案对"升级到"证据可溯源"，对所有做企业文档问答、RAG 产品的团队都是必须正视的可信度标尺。

HuggingFace arXiv

文档智能证据溯源Doc-VQA可信AI评测基准

2. MinT: Managed Infrastructure for Training and Serving Millions of LLMs

👍 217 upvotes 📚 cs.LG 📅 2026-05-13

百万级 LoRA 策略训练与在线托管基础设施，基座常驻、LoRA 热插拔

解决什么问题：许多场景需要在少数昂贵的基座模型部署之上，产出大量 LoRA 后训练策略。如果每个策略都合并成一份完整 checkpoint，存储和切换成本会爆炸。
核心方法：MinT 让基座模型常驻显存，把导出的 LoRA adapter 作为轻量单元动态加载/卸载，实现"一套基座 + 百万级策略"的训练与在线服务托管。

为什么值得关注：随着"为每个客户/场景微调一个 LoRA"成为常见做法，规模化 LoRA 托管是绕不开的工程问题。MinT 给出了一套可借鉴的基础设施设计。

HuggingFace arXiv

LoRA模型托管基础设施后训练MinT

3. Code as Agent Harness

👍 196 upvotes 📚 cs.AI 📅 2026-05-18

把代码从"输出目标"升级为 Agent 推理、行动、环境建模与验证的统一操作基座

解决什么问题：LLM 在代码理解和生成上已经很强，从竞赛编程到仓库级软件工程。但在新兴 Agent 系统中，代码的角色正在变化——它不再只是"要产出的结果"。
核心方法：Code as Agent Harness 提出一个统一框架，把代码作为 Agent 的"操作基底"（operational substrate）：用代码做推理（把思考写成可执行逻辑）、做行动（调用工具）、做环境建模、做基于执行的验证。相比纯自然语言 prompt，代码基座让 Agent 的每一步都可执行、可验证。

为什么值得关注：这是对"代码在 Agent 系统中扮演什么角色"的一次重新定义。对所有做 Code Agent、Agentic Coding 的团队，提供了一个比"prompt 工程"更扎实的系统设计范式。

HuggingFace arXiv

Agent基座Code Agent执行验证环境建模

4. Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

👍 187 upvotes 📚 cs.LG 📅 2026-05-12

用逐点互信息分析自蒸馏在数学推理上的不稳定根因，提出反向修正

解决什么问题：在线策略自蒸馏（把学生拉向"受特权上下文（如已验证解、反馈）加持的自己"）是无需更强外部教师就提升推理的有前景方向。但在数学推理上，收益时灵时不灵，即使同样方法在别处成功。
核心方法：论文用逐点互信息（PMI）视角分析这种不一致的根因，发现某些情况下"拉向特权版本的自己"反而会强化错误捷径。据此提出反向自蒸馏（anti-self-distillation）来修正优化方向，加速数学推理能力提升。

为什么值得关注：解释了一个困扰很多团队的现象——"自蒸馏方法在别的任务上 work，搬到数学推理就时好时坏"。这种机制级的诊断比单纯刷分更有长期价值。

HuggingFace arXiv

自蒸馏强化学习数学推理互信息

5. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

👍 185 upvotes 📚 cs.CV 📅 2026-05-12

用 NEO-unify 架构原生统一多模态理解与生成，消除割裂的级联管线

解决什么问题：当前视觉语言模型仍被一个根本性的二分法束缚——理解和生成被当作两个不同问题，导致架构碎片化、级联管线、表示空间错位。论文认为这不只是工程瑕疵，而是阻碍能力涌现的结构性限制。
核心方法：SenseNova-U1 提出 NEO-unify 架构，在单一框架内原生统一理解与生成，让两者共享一致的表示空间。

为什么值得关注：这是"理解-生成统一"主线的又一重要进展（呼应此前 LLaDA2.0-Uni、LLaDA 等）。多模态模型选型正在从"理解模型 + 生成模型拼接"转向"原生统一架构"。

HuggingFace arXiv

多模态统一理解与生成SenseNovaVLM

6. Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

👍 154 upvotes 📚 cs.CL 📅 2026-05-13

用简单统一的训练配方把后训练推理模型推到 IMO/IPhO 金牌级

解决什么问题：推理模型在长时程数学/科学问题上进步显著，已有系统在 IMO（国际数学奥赛）、IPhO（国际物理奥赛）上达到金牌级。但这些成果往往依赖复杂的技巧堆叠，难以复现。
核心方法：论文提出一套简单、统一的配方，把一个后训练推理 backbone 转化为奥赛金牌级选手，强调可复现性而非堆叠 trick。

为什么值得关注：把"奥赛金牌级推理"从少数实验室的复杂秘方，简化为可复现的统一配方，对学界和中小团队复刻顶尖推理能力意义重大。

HuggingFace arXiv

推理模型奥赛统一配方scaling

7. Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

👍 142 upvotes 📚 cs.AI 📅 2026-05-14

从互联网视频自动提取 GUI 交互轨迹，构建大规模 GUI Agent 预训练数据

解决什么问题：GUI Agent 的泛化受限于训练数据稀缺——现有数据集严重依赖昂贵的人工标注，且通常局限在窄领域。
核心方法：Video2GUI 从海量互联网视频（教程、演示、录屏）中自动提取 GUI 交互轨迹（点击、输入、滚动等操作序列），构建覆盖多样真实应用的大规模预训练数据集，无需人工逐帧标注。

为什么值得关注：GUI Agent 是 RPA、自动化办公的核心，但数据瓶颈一直卡着泛化能力。Video2GUI 用"视频→轨迹"的规模化合成思路，可能成为 GUI Agent 预训练的主流数据来源。

HuggingFace arXiv

GUI Agent轨迹合成数据规模化预训练

8. DelTA: Discriminative Token Credit Assignment for RL from Verifiable Rewards

👍 125 upvotes 📚 cs.LG 📅 2026-05-20

用判别器视角理解 RLVR 更新如何转化为 token 级概率变化，改进信用分配

解决什么问题：RLVR（可验证奖励强化学习）已成为提升 LLM 推理能力的核心技术，但响应级（response-level）的奖励到底如何转化成 token 级概率变化，一直缺乏理解，导致信用分配粗糙。
核心方法：DelTA 引入"判别器视角"，揭示策略梯度更新方向的内在结构，据此设计更精细的 token 级信用分配机制，让奖励信号更准确地落到真正贡献正确推理的 token 上。

为什么值得关注：和 Anti-Self-Distillation 同属本期"RL 机制深挖"主线。把 RLVR 从"响应级黑箱"打开到"token 级可解释"，是推理 RL 继续提升的底层方法论。

HuggingFace arXiv

RLVRtoken信用分配强化学习DelTA

本期总结

W20-W21 这两周的论文，集中呈现了 AI 在"可信、精细、系统化"三个方向的同步深化。

评测层面，CiteVQA 用本期最高票宣告了一个转变："答案正确"不再是终点，"证据可溯源"才是高风险场景的真正门槛。配合 Perception or Prejudice 揭示的 MLLM 表层捷径、MulTaBench 的多模态表格评测，可以看到整个评测生态正在从"刷准确率"转向"查可信度、查鲁棒性、查推理路径"。对做企业级 AI 产品的团队，这意味着 demo 跑分和生产可信之间的鸿沟会被越来越严格地度量。

训练方法层面，DelTA、Anti-Self-Distillation、Self-Distilled Agentic RL、Olympiad Reasoning 四篇组合，把 RL 后训练推进到"token 级信用分配 + 机制可解释"的精细化阶段。这与过去几个月"奖励建模结构化升级"的趋势一脉相承——当堆参数、堆数据的红利消退，真正的增量来自把每一份奖励信号用得更准。Olympiad Reasoning 则证明，在方法成熟后，顶尖推理能力可以用"简单统一配方"复现，而非少数实验室专属。

Agent 层面，Code as Agent Harness、MinT、SkillsVote、Video2GUI 四篇呈现了 Agent 系统工程的四块拼图：操作基座（代码）、训练托管（百万 LoRA）、技能治理（生命周期）、数据规模化（视频合成轨迹）。Agent 研究正彻底告别"单点能力 demo"，进入"基础设施 + 治理 + 数据"三位一体的系统工程阶段。SenseNova-U1 则在多模态架构上延续了"理解-生成统一"的长期主线。

对于做模型训练、Agent 系统或多模态产品的团队，W20-W21 的判断都很明确：下一阶段的竞争不在"能不能做"，而在"做得可信不可信、奖励用得精不精、系统撑不撑得起规模"——这三件事，正是从研究 demo 走向生产系统的真正分水岭。

想实时追踪每天的 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿，经恩筑AI研究团队审核后发布。热度数据截至 2026-05-23 20:00 CST 抓取，upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv，趋势判断代表团队观点，仅供参考。本期为 W20 与 W21 合并的半月版。

CiteVQA / Code as Agent Harness / Anti-Self-Distillation — 2026 W20-W21 AI 论文半月版（8 篇精选）

本期三个趋势

本期精选论文（8 篇）

1. CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

2. MinT: Managed Infrastructure for Training and Serving Millions of LLMs

3. Code as Agent Harness

4. Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

5. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

6. Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

7. Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

8. DelTA: Discriminative Token Credit Assignment for RL from Verifiable Rewards

本期总结

恩筑AI研究团队（NGJOO AI Lab）

相关阅读

2026 W18-W19 AI 论文半月版：可部署 VLA、递归多智能体与流式视频生成

每周 AI 论文热点（W17）：多模态生成进入工业部署，隐式推理挑战 CoT

每周 AI 论文热点（W16）：视频生成迈向可探索世界，奖励设计成推理突破杠杆

专题：MetaClaw Agent 演化——从工具调用到自主进化的技术路线