论文信息
Demystifying Video Reasoning
作者:Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin 等
👍 346 upvotes   📚 cs.CV   📅 2026-03-17
HuggingFacearXiv

背景:视频生成模型会"推理"?

近期研究发现了一个意想不到的现象:基于扩散的视频生成模型展现出了不容忽视的推理能力。此前有研究展示过,给定一个数学题的初始帧,视频模型可以"生成"出解题过程——每一帧对应解题的一个步骤。

此前的主流解释是 Chain-of-Frames(CoF)假设:推理沿帧序列逐步展开,类似于 LLM 中的 Chain-of-Thought,只不过"思维链"被展开在了视频帧中。

这个假设听起来很直觉——但它对吗?

核心发现:推理沿去噪步骤展开,而非帧序列

这篇论文的最大贡献是颠覆了 CoF 假设。通过定性分析和定向探测实验,作者发现:

视频扩散模型的推理主要沿去噪步骤(denoising steps)展开,而非帧与帧之间的因果链。作者将这种机制命名为 Chain-of-Steps(CoS)

具体来说:

CoF vs CoS:一个直觉对比

Chain-of-Frames(旧假设) 推理沿帧序列展开 → 帧 1 帧 2 帧 3 答案 每帧确定解的下一步,像翻页动画 Chain-of-Steps(新发现) 推理沿去噪步骤展开 ↓ 去噪步骤 1:探索多个候选方案 去噪步骤 2:缩小候选范围 去噪步骤 3:进一步收敛 最终答案 逐步细化收敛,像油画创作
Chain-of-Frames(旧假设) Chain-of-Steps(新发现)
推理轴 沿帧序列(时间轴) 沿去噪步骤(生成轴)
类比 像翻页动画,一帧推一帧 像油画创作,先草稿后细化
探索方式 每帧确定一个解的下一步 早期同时探索多个候选,逐步收敛
优化方向 增加帧数 = 更长的推理链 优化去噪调度 = 更好的推理过程

三种涌现推理行为

除了核心的 CoS 机制,论文还发现了三种对模型性能至关重要的涌现推理行为:

1. 工作记忆(Working Memory)

模型能在去噪过程中维持对先前信息的持久引用。这类似于人类解题时"记住前几步的中间结果"——模型不是每步从头开始,而是在去噪过程中维护一个隐式的工作记忆。

2. 自纠错与增强(Self-Correction and Enhancement)

模型能从错误的中间解中恢复。在去噪的早期阶段,模型可能会产生不正确的方案,但后续的去噪步骤能检测到这些错误并修正,最终收敛到正确答案。

3. 感知先于动作(Perception Before Action)

早期的去噪步骤负责建立语义基础(理解问题),后续步骤才执行结构化的推理操作。这与人类先"看懂题目"再"动手解题"的过程高度一致。

Diffusion Transformer 内部的功能分化

论文还深入到 Diffusion Transformer 的单个去噪步骤内部,发现了自发形成的功能分工:

论文将这种现象称为"自发演化的功能特化"(self-evolved functional specialization),意味着这种分工不是通过显式监督来驱动的。

一个免训练的验证策略

基于以上发现,作者提出了一个简单的概念验证策略:用不同随机种子的相同模型生成多条去噪轨迹,然后在潜在空间中进行集成(ensemble)。

作为概念验证,这个策略不需要任何额外训练,就能提升推理质量。原理很直观:如果推理沿去噪步骤展开,那么多条不同的去噪路径就像"多个思考角度",集成后能得到更可靠的结果。

对实践者的启示

想实时追踪视频生成、扩散模型等 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据和 arXiv 原文生成初稿,经恩筑AI研究团队审核后发布。论文信息来源为 HuggingFace Papers 和 arXiv,解读代表团队观点,仅供参考。