本周三个趋势
本周三篇高热论文共同指向一个范式转移:Agent 不再满足于运行时检索工具和技能,而是开始将能力"内化"到模型参数中。GEMS(78↑)借鉴 Claude Code 的设计理念,用记忆+技能双引擎增强多模态 Agent;SKILL0(72↑)更进一步,通过强化学习将技能从外部增强变为模型内在能力,实现零样本提升。而 Terminal Agents(76↑)从另一个角度证明——复杂的工具链(MCP、Web Agent)可能是过度设计,终端 API 直接交互就足以完成企业自动化。三篇论文的共同结论:Agent 的未来不是"更多工具",而是"更强内功"。
本周最热论文 CARLA-Air(302↑)将驾驶仿真与无人机飞行统一到一个物理一致的环境中,这不是简单的功能叠加——低空经济、具身智能和空地协同的交汇,要求仿真平台具备"联合建模"能力。Generative World Renderer(74↑)则从数据侧发力,用 3A 游戏引擎数据弥合合成-真实世界的 domain gap。当仿真平台从"单一领域工具"升级为"通用 AI 基础设施",Embodied AI 的训练效率和泛化能力将获得质的飞跃。
Medical AI Scientist(64↑)是首个面向临床医学的自主研究框架,实现从文献调研、假说生成到实验执行的全流程自动化。这标志着 AI Scientist 从"通用论证"阶段进入"垂直落地"阶段——不再是证明"AI 能做研究",而是证明"AI 能做好某个领域的研究"。The Latent Space(98↑)这篇综述则从底层机制角度提供了理论支撑:理解潜在空间的运作方式,是让 AI 研究能力从涌现走向可控的关键。
本周精选论文(7 篇)
1. CARLA-Air: Fly Drones Inside a CARLA World
核心方法:CARLA-Air 在 CARLA 仿真引擎中原生集成无人机飞行能力,支持在同一场景中同时运行自动驾驶车辆和无人机,共享物理引擎和传感器模型,实现真正的空地联合仿真。
2. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
核心方法:这篇综述系统梳理了语言模型潜在空间的基础理论、演化历程、内部机制和涌现能力,为理解 LLM "如何思考"提供了结构化的理论框架。
3. GEMS: Agent-Native Multimodal Generation with Memory and Skills
核心方法:GEMS 提出 Agent-Native 设计——受 Claude Code 等先进 Agent 框架启发,为多模态生成模型配备记忆系统(持久化经验)和技能系统(可组合的能力模块),让模型能像经验丰富的人类一样,从历史中学习、用技能解决新问题。
4. Terminal Agents Suffice for Enterprise Automation
核心方法:Terminal Agents 提出一个反直觉的结论——通过终端直接调用 API 就足以完成企业自动化任务,无需 MCP 的工具抽象层,也无需 Web Agent 的 GUI 操作。简单、直接的 API 交互在效率和可靠性上优于更复杂的方案。
5. Generative World Renderer
核心方法:利用视觉复杂度极高的 3A 游戏引擎,构建大规模动态数据集。通过新颖的数据采集管线获取高真实感、物理一致的场景数据,支持正向和逆向渲染训练,以及可控的视频生成。
6. SKILL0: In-Context Agentic RL for Skill Internalization
核心方法:SKILL0 提出"技能内化"——不在推理时加载技能,而是通过动态课程强化学习,在训练阶段就将技能能力编码到模型参数中。训练后的模型无需任何技能包即可零样本完成任务。
7. Towards a Medical AI Scientist
核心方法:提出首个面向临床医学的自主研究框架,覆盖从文献调研、假说生成、实验设计到执行的完整研究链路,并针对医学领域的特殊约束(伦理、可复现性、循证标准)进行定制化设计。
本周总结
本周 HuggingFace 热门论文的核心主题是:AI 系统正在从"外部增强"走向"内在能力"。Agent 不再满足于运行时加载工具和技能,而是通过 RL 将能力内化到参数中(SKILL0);仿真环境不再是单一领域的辅助工具,而是成为空地联合的基础设施(CARLA-Air);AI 研究不再是通用框架的概念验证,而是深入到对可靠性要求最高的临床医学(Medical AI Scientist)。
尤其值得关注的是 Agent 技能内化这条线——GEMS 的记忆+技能框架、SKILL0 的 RL 内化、Terminal Agents 对复杂工具链的质疑,三篇论文从不同角度指向同一个结论:Agent 的下一阶段不是"更多工具",而是"更强内功"。这对 Agent 系统的架构选型和技术投资方向有直接影响。
The Latent Space 这篇综述则从理论层面为上述趋势提供了基础——当我们更深入地理解模型的潜在空间,才能更可靠地将知识和技能编码到模型参数中。基础研究和应用趋势在本周形成了少见的呼应。
想实时追踪每天的 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据生成初稿,经恩筑AI研究团队审核后发布。热度数据截至 2026-04-03 18:00 CST 抓取,upvotes 等指标可能随时间变化。论文信息来源为 HuggingFace Papers 和 arXiv,趋势判断代表团队观点,仅供参考。