视频扩散模型推理机制解读：Chain-of-Steps 挑战 Chain-of-Frames

论文信息
Demystifying Video Reasoning
作者：Ruisi Wang, Zhongang Cai, Fanyi Pu, Junxiang Xu, Wanqi Yin 等
👍 346 upvotes 📚 cs.CV 📅 2026-03-17
HuggingFace arXiv

背景：视频生成模型会"推理"？

近期研究发现了一个意想不到的现象：基于扩散的视频生成模型展现出了不容忽视的推理能力。此前有研究展示过，给定一个数学题的初始帧，视频模型可以"生成"出解题过程——每一帧对应解题的一个步骤。

此前的主流解释是 Chain-of-Frames（CoF）假设：推理沿帧序列逐步展开，类似于 LLM 中的 Chain-of-Thought，只不过"思维链"被展开在了视频帧中。

这个假设听起来很直觉——但它对吗？

核心发现：推理沿去噪步骤展开，而非帧序列

这篇论文的最大贡献是颠覆了 CoF 假设。通过定性分析和定向探测实验，作者发现：

视频扩散模型的推理主要沿去噪步骤（denoising steps）展开，而非帧与帧之间的因果链。作者将这种机制命名为 Chain-of-Steps（CoS）。

具体来说：

在早期去噪步骤中，模型会同时探索多个候选解
随着去噪过程推进，模型逐步收敛到最终答案
推理更像是"逐步细化"——每次去噪迭代在全局层面推进推理，而非帧到帧的因果推导

CoF vs CoS：一个直觉对比

	Chain-of-Frames（旧假设）	Chain-of-Steps（新发现）
推理轴	沿帧序列（时间轴）	沿去噪步骤（生成轴）
类比	像翻页动画，一帧推一帧	像油画创作，先草稿后细化
探索方式	每帧确定一个解的下一步	早期同时探索多个候选，逐步收敛
优化方向	增加帧数 = 更长的推理链	优化去噪调度 = 更好的推理过程

三种涌现推理行为

除了核心的 CoS 机制，论文还发现了三种对模型性能至关重要的涌现推理行为：

1. 工作记忆（Working Memory）

模型能在去噪过程中维持对先前信息的持久引用。这类似于人类解题时"记住前几步的中间结果"——模型不是每步从头开始，而是在去噪过程中维护一个隐式的工作记忆。

2. 自纠错与增强（Self-Correction and Enhancement）

模型能从错误的中间解中恢复。在去噪的早期阶段，模型可能会产生不正确的方案，但后续的去噪步骤能检测到这些错误并修正，最终收敛到正确答案。

3. 感知先于动作（Perception Before Action）

早期的去噪步骤负责建立语义基础（理解问题），后续步骤才执行结构化的推理操作。这与人类先"看懂题目"再"动手解题"的过程高度一致。

Diffusion Transformer 内部的功能分化

论文还深入到 Diffusion Transformer 的单个去噪步骤内部，发现了自发形成的功能分工：

早期层：编码密集的感知结构（理解输入）
中间层：执行推理计算（核心思考）
后期层：整合潜在表示（输出结果）

论文将这种现象称为"自发演化的功能特化"（self-evolved functional specialization），意味着这种分工不是通过显式监督来驱动的。

一个免训练的验证策略

基于以上发现，作者提出了一个简单的概念验证策略：用不同随机种子的相同模型生成多条去噪轨迹，然后在潜在空间中进行集成（ensemble）。

作为概念验证，这个策略不需要任何额外训练，就能提升推理质量。原理很直观：如果推理沿去噪步骤展开，那么多条不同的去噪路径就像"多个思考角度"，集成后能得到更可靠的结果。

对实践者的启示

优化视频推理应该关注去噪调度，而非简单增加帧数——如果 CoS 成立，这将改变工程优化的方向
去噪步骤数量可能影响推理深度：论文暗示更多步骤允许更充分的探索和收敛，但具体关系有待进一步研究
多轨迹集成是低成本的推理增强手段：论文的概念验证表明，对于关键任务，可以用不同种子生成多条轨迹后集成
CoS 的思路可能推广到其他扩散模型：图像生成、3D 生成中的推理是否也沿去噪步骤展开？值得探索

想实时追踪视频生成、扩散模型等 AI 热门论文？Paper Collector 自动采集 HuggingFace 论文并生成中文摘要，每日更新。

访问 Paper Collector

本文基于 Paper Collector 论文热度数据和 arXiv 原文生成初稿，经恩筑AI研究团队审核后发布。论文信息来源为 HuggingFace Papers 和 arXiv，解读代表团队观点，仅供参考。