DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

[CVPR 2026] DiT4DiT：视频生成即扩散控制，开启机器人泛化新范式

总结

问题

方法

结果

要点

摘要

本文提出了 DiT4DiT，一种将视频扩散 Transformer (Video DiT) 与动作扩散 Transformer (Action DiT) 耦合的端到端视频动作模型 (VAM)。该模型通过双流匹配 (Dual Flow-matching) 目标，直接从视频生成的中间去噪特征中提取时空物理先验，实现了在 LIBERO (98.6%) 和 RoboCasa (50.8%) 模拟基准及 Unitree G1 真实机器人上的 SOTA 性能。

TL;DR

机器人学习长期面临“数据饥渴”的困境，尤其是高质量的 Action 标注异常珍贵。DiT4DiT 另辟蹊径，证明了：视频生成模型（VGM）学到的物理常识，可以直接转化为强大的机器人控制力。 该工作通过双 DiT 架构和双流匹配（Dual Flow-matching）算法，实现了视频动力学与动作预测的深度耦合，在数据效率上提升了 10 倍，并刷新了 LIBERO 与 RoboCasa 榜单。

背景定位：从“看图说话”到“理解物理”

传统的 VLA 模型（如 RT-2, OpenVLA）本质上是“缝合怪”：用互联网级别的静态图像-文本预训练来提供语义，再用昂贵的机器人操作数据来强行磨合物理规律。

DiT4DiT 的核心直觉是： 视频生成模型在合成连贯的未来帧时，必须隐式地学习质量、惯性、碰撞等物理规律（Implicit Physics）。如果能将这些深层的去噪特征“喂”给动作模型，机器人就能像人类一样，通过“脑补”未来画面来指导自身的肌肉动作。

核心架构：DiT 对接 DiT 的优雅耦合

DiT4DiT 的核心是一个双扩散 Transformer 结构：

Video DiT：初始化自 Cosmos-Predict，负责预测未来帧。它不仅是视觉预处理器，更是“物理引擎”。
Action DiT：接收来自 Video DiT 的中间层特征，通过 Cross-Attention 进行动作序列的 Flow-matching 生成。

DiT4DiT 模型架构图

非对称三时间步（Tri-timestep Scheme）

这是本文最精妙的设计。为了解决视频生成（需要随机时间步保证生成多样性）与特征提取（需要稳定特征供 Action 网络学习）的矛盾，作者设计了三种时间步：

$a u_{v}$ ：视频训练的随机步，确保模型学会全流程预测。
$a u_{f}$ ：固定提取步（通常设在第 18 层），为 Action 提供一致的时空表征。
$a u_{a}$ ：动作生成的 Beta 分布步，侧重控制轨迹的关键阶段。

实验战果：10 倍效率提升与硬核泛化

1. 效率惊人

相比传统的语义对齐（Grounding）或 VLM 特征对齐，DiT4DiT 展现了恐怖的收敛速度。仅需 1/10 的数据量，就能达到甚至超越传统方法的性能。

实验效率对比

2. 模拟器与真实世界的双双登顶

在包含 24 类日常任务的 RoboCasa 中，DiT4DiT 达到了 50.8% 的成功率，远超 NVIDIA 著名的 GR00T-N1.5。在 Unitree G1 机器人的实测中，即使是面对未见过的金属杯子或完全不同的花瓶（Zero-shot），模型依然能保持极高的操作精度。

真实机器人表现

深度洞察：为什么第 18 层特征是“黄金特征”？

在消融实验中，作者发现了一个有趣的现象：动作控制最需要的不是“高清像素”。

提取 Video DiT 的早期层特征，性能很差，因为那是低级纹理；
提取末尾层特征，性能竟然也会崩塌，因为那些特征已过度特化为“像素重建”，丢失了抽象的物理语义。
第 18 层（中间偏深层） 才是王道，它精准捕捉了物体间的时空交互关系。

局限性与未来展望

虽然 DiT4DiT 成功地让视频生成为动作背书，但目前仍受限于单视角（Ego-view）。在复杂的双臂协作中，遮挡问题依然无解。未来的方向可能是引入多视角视频生成，并利用更大规模的跨机器人（Cross-embodiment）数据集进行大规模预训练，打造真正的机器人“大模型”。

总结

DiT4DiT 证明了：能生成物理世界动态变化的 AI，才能真正高效地学会如何操纵物理世界。 这一范式的成功，标志着机器人学习正在从“语义模仿”进入“动力学驱动”的新阶段。

发现相似论文

试试这些示例

查找其他将视频扩散模型 (Video Diffusion Models) 作为骨干网络直接用于端到端机器人策略生成的最新研究。
哪篇论文首次提出了流匹配 (Flow Matching) 在动作生成中的应用，DiT4DiT 的双流匹配与其有何演进关系？
探索在大规模异构机器人数据集上预训练视频生成模型对提高跨机器人形态 (Cross-embodiment) 泛化能力的影响。

[CVPR 2026] DiT4DiT：视频生成即扩散控制，开启机器人泛化新范式

1. TL;DR

2. 背景定位：从“看图说话”到“理解物理”

3. 核心架构：DiT 对接 DiT 的优雅耦合

3.1. 非对称三时间步（Tri-timestep Scheme）

4. 实验战果：10 倍效率提升与硬核泛化

4.1. 1. 效率惊人

4.2. 2. 模拟器与真实世界的双双登顶

5. 深度洞察：为什么第 18 层特征是“黄金特征”？

6. 局限性与未来展望

7. 总结