Demystifying Video Reasoning
作者:Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin 等
👍 346 upvotes 📚 cs.CV 📅 2026-03-17
HuggingFace arXiv
背景:视频生成模型会"推理"?
近期研究发现了一个意想不到的现象:基于扩散的视频生成模型展现出了不容忽视的推理能力。此前有研究展示过,给定一个数学题的初始帧,视频模型可以"生成"出解题过程——每一帧对应解题的一个步骤。
此前的主流解释是 Chain-of-Frames(CoF)假设:推理沿帧序列逐步展开,类似于 LLM 中的 Chain-of-Thought,只不过"思维链"被展开在了视频帧中。
这个假设听起来很直觉——但它对吗?
核心发现:推理沿去噪步骤展开,而非帧序列
这篇论文的最大贡献是颠覆了 CoF 假设。通过定性分析和定向探测实验,作者发现:
视频扩散模型的推理主要沿去噪步骤(denoising steps)展开,而非帧与帧之间的因果链。作者将这种机制命名为 Chain-of-Steps(CoS)。
具体来说:
- 在早期去噪步骤中,模型会同时探索多个候选解
- 随着去噪过程推进,模型逐步收敛到最终答案
- 推理更像是"逐步细化"——每次去噪迭代在全局层面推进推理,而非帧到帧的因果推导
CoF vs CoS:一个直觉对比
| Chain-of-Frames(旧假设) | Chain-of-Steps(新发现) | |
|---|---|---|
| 推理轴 | 沿帧序列(时间轴) | 沿去噪步骤(生成轴) |
| 类比 | 像翻页动画,一帧推一帧 | 像油画创作,先草稿后细化 |
| 探索方式 | 每帧确定一个解的下一步 | 早期同时探索多个候选,逐步收敛 |
| 优化方向 | 增加帧数 = 更长的推理链 | 优化去噪调度 = 更好的推理过程 |
三种涌现推理行为
除了核心的 CoS 机制,论文还发现了三种对模型性能至关重要的涌现推理行为:
1. 工作记忆(Working Memory)
模型能在去噪过程中维持对先前信息的持久引用。这类似于人类解题时"记住前几步的中间结果"——模型不是每步从头开始,而是在去噪过程中维护一个隐式的工作记忆。
2. 自纠错与增强(Self-Correction and Enhancement)
模型能从错误的中间解中恢复。在去噪的早期阶段,模型可能会产生不正确的方案,但后续的去噪步骤能检测到这些错误并修正,最终收敛到正确答案。
3. 感知先于动作(Perception Before Action)
早期的去噪步骤负责建立语义基础(理解问题),后续步骤才执行结构化的推理操作。这与人类先"看懂题目"再"动手解题"的过程高度一致。
Diffusion Transformer 内部的功能分化
论文还深入到 Diffusion Transformer 的单个去噪步骤内部,发现了自发形成的功能分工:
- 早期层:编码密集的感知结构(理解输入)
- 中间层:执行推理计算(核心思考)
- 后期层:整合潜在表示(输出结果)
论文将这种现象称为"自发演化的功能特化"(self-evolved functional specialization),意味着这种分工不是通过显式监督来驱动的。
一个免训练的验证策略
基于以上发现,作者提出了一个简单的概念验证策略:用不同随机种子的相同模型生成多条去噪轨迹,然后在潜在空间中进行集成(ensemble)。
作为概念验证,这个策略不需要任何额外训练,就能提升推理质量。原理很直观:如果推理沿去噪步骤展开,那么多条不同的去噪路径就像"多个思考角度",集成后能得到更可靠的结果。
对实践者的启示
- 优化视频推理应该关注去噪调度,而非简单增加帧数——如果 CoS 成立,这将改变工程优化的方向
- 去噪步骤数量可能影响推理深度:论文暗示更多步骤允许更充分的探索和收敛,但具体关系有待进一步研究
- 多轨迹集成是低成本的推理增强手段:论文的概念验证表明,对于关键任务,可以用不同种子生成多条轨迹后集成
- CoS 的思路可能推广到其他扩散模型:图像生成、3D 生成中的推理是否也沿去噪步骤展开?值得探索
想实时追踪视频生成、扩散模型等 AI 热门论文?Paper Collector 自动采集 HuggingFace 论文并生成中文摘要,每日更新。
访问 Paper Collector本文基于 Paper Collector 论文热度数据和 arXiv 原文生成初稿,经恩筑AI研究团队审核后发布。论文信息来源为 HuggingFace Papers 和 arXiv,解读代表团队观点,仅供参考。