2026 年第 14 周 AI 论文热点：Agent 技能内化革命，仿真世界成为 AI 基础设施

本周三个趋势

1. Agent 从工具调用走向技能内化
本周三篇高热论文共同指向一个范式转移：Agent 不再满足于运行时检索工具和技能，而是开始将能力"内化"到模型参数中。GEMS（78↑）借鉴 Claude Code 的设计理念，用记忆+技能双引擎增强多模态 Agent；SKILL0（72↑）更进一步，通过强化学习将技能从外部增强变为模型内在能力，实现零样本提升。而 Terminal Agents（76↑）从另一个角度证明——复杂的工具链（MCP、Web Agent）可能是过度设计，终端 API 直接交互就足以完成企业自动化。三篇论文的共同结论：Agent 的未来不是"更多工具"，而是"更强内功"。

2. 仿真世界成为 AI 基础设施
本周最热论文 CARLA-Air（302↑）将驾驶仿真与无人机飞行统一到一个物理一致的环境中，这不是简单的功能叠加——低空经济、具身智能和空地协同的交汇，要求仿真平台具备"联合建模"能力。Generative World Renderer（74↑）则从数据侧发力，用 3A 游戏引擎数据弥合合成-真实世界的 domain gap。当仿真平台从"单一领域工具"升级为"通用 AI 基础设施"，Embodied AI 的训练效率和泛化能力将获得质的飞跃。

3. AI 研究走向自主化——垂直领域突破
Medical AI Scientist（64↑）是首个面向临床医学的自主研究框架，实现从文献调研、假说生成到实验执行的全流程自动化。这标志着 AI Scientist 从"通用论证"阶段进入"垂直落地"阶段——不再是证明"AI 能做研究"，而是证明"AI 能做好某个领域的研究"。The Latent Space（98↑）这篇综述则从底层机制角度提供了理论支撑：理解潜在空间的运作方式，是让 AI 研究能力从涌现走向可控的关键。

本周精选论文（7 篇）

1. CARLA-Air: Fly Drones Inside a CARLA World

👍 302 upvotes 📚 cs.RO 📅 2026-03-30

统一高保真驾驶与无人机飞行的开源仿真平台

解决什么问题：低空经济、具身智能和空地协同系统对仿真平台提出了新需求——在同一个物理一致的环境中联合建模空中和地面智能体。现有开源平台要么只做驾驶（CARLA），要么只做无人机（AirSim），无法实现空地协同训练。
核心方法：CARLA-Air 在 CARLA 仿真引擎中原生集成无人机飞行能力，支持在同一场景中同时运行自动驾驶车辆和无人机，共享物理引擎和传感器模型，实现真正的空地联合仿真。

为什么值得关注：302 upvotes 是本周毫无悬念的最热。空地联合仿真是低空经济落地的基础设施级需求——无人机配送、空地协同巡检等场景都需要这种统一仿真能力。开源属性更是降低了研究门槛。

HuggingFace arXiv

仿真平台空地协同CARLA无人机具身智能

2. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

👍 98 upvotes 📚 cs.CL 📅 2026-04-02

全面综述语言模型潜在空间的基础、演化机制与能力

解决什么问题：我们对 LLM 的理解仍停留在 token 级别的生成范式上，但越来越多的研究表明，模型内部的关键过程是在连续的潜在空间中进行的。缺乏对潜在空间的系统性认知，制约了我们优化和控制 LLM 行为的能力。
核心方法：这篇综述系统梳理了语言模型潜在空间的基础理论、演化历程、内部机制和涌现能力，为理解 LLM "如何思考"提供了结构化的理论框架。

为什么值得关注：这是一篇"理解 LLM 内部世界"的路线图级综述。当行业从"使用 LLM"转向"理解 LLM"，潜在空间的研究将直接影响模型对齐、可控生成和安全性等核心问题。

HuggingFace arXiv

潜在空间综述LLM机制表征学习

3. GEMS: Agent-Native Multimodal Generation with Memory and Skills

👍 78 upvotes 📚 cs.AI 📅 2026-03-30

借鉴 Claude Code 设计理念，用记忆+技能双引擎增强多模态生成 Agent

解决什么问题：现有多模态生成模型在通用任务上表现出色，但面对复杂指令和专业下游任务时仍力不从心。核心瓶颈不是模型能力不足，而是缺乏系统化的知识管理和技能编排机制。
核心方法：GEMS 提出 Agent-Native 设计——受 Claude Code 等先进 Agent 框架启发，为多模态生成模型配备记忆系统（持久化经验）和技能系统（可组合的能力模块），让模型能像经验丰富的人类一样，从历史中学习、用技能解决新问题。

为什么值得关注："Agent-Native"这个概念值得关注——不是在现有模型上叠加 Agent 功能，而是从架构层面按 Agent 逻辑重新设计。记忆+技能的双引擎模式与我们在 AI-OA 系统中的实践高度一致。

HuggingFace arXiv

Agent-Native记忆系统技能编排多模态生成

4. Terminal Agents Suffice for Enterprise Automation

👍 76 upvotes 📚 cs.AI 📅 2026-03-31

终端代理通过 API 直接交互足以实现企业自动化，无需复杂工具链

解决什么问题：企业自动化 Agent 的主流方向有三条：MCP 工具增强、Web Agent（通过 GUI 交互）、以及 API 直接调用。哪种路径最高效？是否需要越来越复杂的工具抽象层？
核心方法：Terminal Agents 提出一个反直觉的结论——通过终端直接调用 API 就足以完成企业自动化任务，无需 MCP 的工具抽象层，也无需 Web Agent 的 GUI 操作。简单、直接的 API 交互在效率和可靠性上优于更复杂的方案。

为什么值得关注：这是对当前 Agent 工具生态（尤其是 MCP）的直接挑战。如果终端交互确实"够用"，那么大量投入在工具链建设上的工程努力可能需要重新评估。这个结论对企业 Agent 架构选型有直接指导意义。

HuggingFace arXiv

企业自动化终端AgentMCP替代API交互

5. Generative World Renderer

👍 74 upvotes 📚 cs.CV 📅 2026-04-02

用 3A 游戏数据构建大规模动态数据集，支持双向渲染与可控视频生成

解决什么问题：将生成式渲染扩展到真实场景受制于合成数据集的真实感和时序一致性不足。现有合成数据与真实世界之间存在持久的 domain gap。
核心方法：利用视觉复杂度极高的 3A 游戏引擎，构建大规模动态数据集。通过新颖的数据采集管线获取高真实感、物理一致的场景数据，支持正向和逆向渲染训练，以及可控的视频生成。

为什么值得关注：与上周 Omni-WorldBench 的评测升级相呼应——本周从数据侧发力。当世界模型的训练数据从"合成场景"升级到"3A 游戏级真实感"，domain gap 问题有望根本性缓解。

HuggingFace arXiv

世界模型3A游戏数据生成式渲染可控视频

6. SKILL0: In-Context Agentic RL for Skill Internalization

👍 72 upvotes 📚 cs.LG 📅 2026-04-02

通过动态课程强化学习将技能内化为模型能力，零样本提升 Agent 表现

解决什么问题：当前 Agent 依赖运行时技能增强（检索技能包、加载到上下文），但这种方式有根本限制：检索噪声引入无关指导，上下文窗口被技能描述占据，推理效率下降。
核心方法：SKILL0 提出"技能内化"——不在推理时加载技能，而是通过动态课程强化学习，在训练阶段就将技能能力编码到模型参数中。训练后的模型无需任何技能包即可零样本完成任务。

为什么值得关注：这是 Agent 能力范式的关键转折——从"运行时增强"到"训练时内化"。如果技能可以被可靠地内化，Agent 系统的复杂度将大幅降低，推理效率将显著提升。这可能定义 Agent 2.0 的技术路线。

HuggingFace arXiv

技能内化强化学习动态课程零样本Agent 2.0

7. Towards a Medical AI Scientist

👍 64 upvotes 📚 cs.AI 📅 2026-03-30

首个面向临床医学的自主研究框架，从文献调研到实验执行全流程自动化

解决什么问题：现有 AI Scientist 系统大多是领域无关的通用框架，在临床医学这样需要严格伦理审查、复杂实验设计和专业领域知识的场景中表现有限。
核心方法：提出首个面向临床医学的自主研究框架，覆盖从文献调研、假说生成、实验设计到执行的完整研究链路，并针对医学领域的特殊约束（伦理、可复现性、循证标准）进行定制化设计。

为什么值得关注：AI Scientist 从"能做研究"到"能做好特定领域的研究"，是从概念验证到实用化的关键一步。临床医学是对可靠性要求最高的领域之一——如果 AI 能在这里可靠地自主研究，其他领域将迅速跟进。

HuggingFace arXiv

AI Scientist临床医学自主研究全流程自动化

本周总结

本周 HuggingFace 热门论文的核心主题是：AI 系统正在从"外部增强"走向"内在能力"。Agent 不再满足于运行时加载工具和技能，而是通过 RL 将能力内化到参数中（SKILL0）；仿真环境不再是单一领域的辅助工具，而是成为空地联合的基础设施（CARLA-Air）；AI 研究不再是通用框架的概念验证，而是深入到对可靠性要求最高的临床医学（Medical AI Scientist）。

尤其值得关注的是 Agent 技能内化这条线——GEMS 的记忆+技能框架、SKILL0 的 RL 内化、Terminal Agents 对复杂工具链的质疑，三篇论文从不同角度指向同一个结论：Agent 的下一阶段不是"更多工具"，而是"更强内功"。这对 Agent 系统的架构选型和技术投资方向有直接影响。

The Latent Space 这篇综述则从理论层面为上述趋势提供了基础——当我们更深入地理解模型的潜在空间，才能更可靠地将知识和技能编码到模型参数中。基础研究和应用趋势在本周形成了少见的呼应。

想实时追踪每天的 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据生成初稿，经恩筑AI研究团队审核后发布。热度数据截至 2026-04-03 18:00 CST 抓取，upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv，趋势判断代表团队观点，仅供参考。

2026 年第 14 周 AI 论文热点：Agent 技能内化革命，仿真世界成为 AI 基础设施

本周三个趋势

本周精选论文（7 篇）

1. CARLA-Air: Fly Drones Inside a CARLA World

2. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

3. GEMS: Agent-Native Multimodal Generation with Memory and Skills

4. Terminal Agents Suffice for Enterprise Automation

5. Generative World Renderer

6. SKILL0: In-Context Agentic RL for Skill Internalization

7. Towards a Medical AI Scientist

本周总结

恩筑AI研究团队（NGJOO AI Lab）

相关阅读

每周 AI 论文热点（W13）：扩散模型重新定义文档 OCR，世界模型进入交互评测时代

每周 AI 论文热点（W12）：视频推理机制被颠覆，OpenClaw Agent 走向自进化

每周 AI 论文热点（W11）：推理对齐、多模态训练、Agent 基础设施