CDit 理解报告
Conditional Diffusion Transformer (CDiT) 核心方法论深度解析
目录
- CDiT的基石:将视频预测重构为条件性去噪
1.1 “练习题”的制作:前向增噪过程
1.2 “解题”过程:反向去噪与CDiT的核心任务 - CDiT的架构核心:Transformer的注意力与序列处理
2.1 视觉信息的序列化
2.2 上下文窗口与跨帧注意力
2.3 自注意力机制 - CDiT的灵魂:“条件” (Conditioning) 的注入与作用
3.1 核心条件输入
3.2 AdaLN:条件的翻译官 - 从训练到推理:CDiT的应用
- 区分动作与应对OOD的挑战
- 结论
原文 网站 Navigation World Models text
github nwm/CODE_OF_CONDUCT.md at main · facebookresearch/nwm (github.com) text
paper [2412.03572] Navigation World Models text
1. CDiT的基石:将视频预测重构为条件性去噪
1.1 “练习题”的制作:前向增噪过程(Training Data Preparation)
- 目标:将清晰的未来图像 $s_{\text{future}}$ 加噪生成用于训练的“练习题”。
- 公式:
$$
\tilde{s}_{\text{future}}^{(t)} = \sqrt{\bar{\alpha}t} \cdot s{\text{future}} + \sqrt{1 - \bar{\alpha}_t} \cdot \epsilon
$$
其中:
-
$\epsilon \sim \mathcal{N}(0, I)$
-
$\bar{\alpha}_t$ 控制噪声占比
-
关键点:
- 使用随机的噪声步 $t$ 和不同的噪声实例 $\epsilon$
- 避免过拟合,增强泛化能力
1.2 “解题”过程:反向去噪与CDiT的核心任务(Learned Generation)
CDiT 模型的目标是在已知条件(上下文帧、动作、噪声步)下还原图像或预测噪声。
- 损失函数:
$$
\mathcal{L}{\text{simple}} = \mathbb{E} \left[ | s{\text{future}} - F_{\theta}(\tilde{s}_{\text{future}}^{(t)} | \text{conditions}) |^2 \right]
$$
2. CDiT的架构核心:Transformer的注意力与序列处理
2.1 视觉信息的序列化
- 图像帧被切分为不重叠 patch
- patch → token → 加入位置编码
- 形成标准的 Transformer 输入序列
2.2 上下文窗口与跨帧注意力
| 项目 | 说明 |
|---|---|
| 上下文帧数量 | 默认 4 帧 |
| Attention 类型 | Cross-Attention |
| Query 来自 | 正在去噪的目标帧 |
| Key/Value 来自 | 上下文帧 |
- 自回归机制:预测出的帧被加入上下文,持续更新历史窗口
2.3 自注意力机制(Self-Attention)
- 捕捉帧内空间结构
- patch 之间信息流动,形成全局图像理解
3. CDiT的灵魂:“条件” (Conditioning) 的注入与作用
3.1 核心条件输入
| 条件类型 | 说明 |
|---|---|
| $a_{\text{nav}} = (u, \phi, k)$ | 平移、旋转、时间步长 |
| $t_{\text{diff}}$ | 当前去噪步骤 |
| $s_{\text{context}}$ | 上下文帧信息 |
3.2 AdaLN:条件的“翻译官”与“执行器”
- 嵌入生成:
$$
\xi = \text{MLP}{\text{condition}} \left( \text{concat}(\psi_a, \psi{t_{\text{diff}}}, \psi_k, …) \right)
$$
- 动态调制参数:
$$
\gamma_i, \beta_i = \text{MLP}_{\text{AdaLN}_i}(\xi)
$$
- 调制LayerNorm:
$$
\text{Output}_i = \gamma_i \cdot \text{Norm}_i + \beta_i
$$
- 意义:使Transformer行为对动作条件高度敏感,提升可控性
4. 从训练到推理:CDiT的应用
- 训练阶段:通过监督方式学习从噪声中恢复图像
- 推理阶段流程:
| 步骤 | 说明 |
|---|---|
| Step 1 | 初始化:随机高斯噪声 $z \sim \mathcal{N}(0, I)$ |
| Step 2 | 每个 $t$ 时刻,将当前图像、上下文、动作、t 输入模型 |
| Step 3 | 输出更清晰图像,作为下一个 $t-1$ 步的输入 |
| Step 4 | 最终得到符合动作意图的未来预测图像 |
5. 区分动作与应对OOD的挑战
区分细微动作
-
前提:需要高分辨率的动作标签数据
-
依赖:
- 高质量动作嵌入
- AdaLN 的精准调制能力
- Transformer 的容量
OOD(Out-of-Distribution)动作
| 情况 | 潜在问题 |
|---|---|
| 动作幅度远超训练范围 | 模型失真、模糊、饱和、崩溃 |
| 动作方向组合新颖 | 模型可能回退到“训练中常见模式” |
- 应对方法:增强数据多样性、设计更鲁棒模型、引入OOD检测机制
6. 结论
Conditional Diffusion Transformer (CDiT) 是一种高度系统化的预测框架,它将视频预测任务转化为“条件性去噪”的问题,并引入:
- Transformer:处理序列与视觉上下文
- AdaLN:实现动作条件的精细调制
- 扩散机制:构建从混沌到秩序的生成路径
其强大的结构使其能够实现“可控性 + 多样性 + 历史一致性”的视频预测目标,为导航世界模型(Navigation World Models)带来了新的范式与可能。
尽管仍面临 OOD泛化挑战,但其方法论的完整性与设计思想的先进性,标志着具身智能领域预测能力的一次飞跃。