本文提出了 DiT4DiT,一种将视频扩散 Transformer (Video DiT) 与动作扩散 Transformer (Action DiT) 耦合的端到端视频动作模型 (VAM)。该模型通过双流匹配 (Dual Flow-matching) 目标,直接从视频生成的中间去噪特征中提取时空物理先验,实现了在 LIBERO (98.6%) 和 RoboCasa (50.8%) 模拟基准及 Unitree G1 真实机器人上的 SOTA 性能。
TL;DR
机器人学习长期面临“数据饥渴”的困境,尤其是高质量的 Action 标注异常珍贵。DiT4DiT 另辟蹊径,证明了:视频生成模型(VGM)学到的物理常识,可以直接转化为强大的机器人控制力。 该工作通过双 DiT 架构和双流匹配(Dual Flow-matching)算法,实现了视频动力学与动作预测的深度耦合,在数据效率上提升了 10 倍,并刷新了 LIBERO 与 RoboCasa 榜单。
背景定位:从“看图说话”到“理解物理”
传统的 VLA 模型(如 RT-2, OpenVLA)本质上是“缝合怪”:用互联网级别的静态图像-文本预训练来提供语义,再用昂贵的机器人操作数据来强行磨合物理规律。
DiT4DiT 的核心直觉是: 视频生成模型在合成连贯的未来帧时,必须隐式地学习质量、惯性、碰撞等物理规律(Implicit Physics)。如果能将这些深层的去噪特征“喂”给动作模型,机器人就能像人类一样,通过“脑补”未来画面来指导自身的肌肉动作。
核心架构:DiT 对接 DiT 的优雅耦合
DiT4DiT 的核心是一个双扩散 Transformer 结构:
- Video DiT:初始化自 Cosmos-Predict,负责预测未来帧。它不仅是视觉预处理器,更是“物理引擎”。
- Action DiT:接收来自 Video DiT 的中间层特征,通过 Cross-Attention 进行动作序列的 Flow-matching 生成。

非对称三时间步(Tri-timestep Scheme)
这是本文最精妙的设计。为了解决视频生成(需要随机时间步保证生成多样性)与特征提取(需要稳定特征供 Action 网络学习)的矛盾,作者设计了三种时间步:
- :视频训练的随机步,确保模型学会全流程预测。
- :固定提取步(通常设在第 18 层),为 Action 提供一致的时空表征。
- :动作生成的 Beta 分布步,侧重控制轨迹的关键阶段。
实验战果:10 倍效率提升与硬核泛化
1. 效率惊人
相比传统的语义对齐(Grounding)或 VLM 特征对齐,DiT4DiT 展现了恐怖的收敛速度。仅需 1/10 的数据量,就能达到甚至超越传统方法的性能。

2. 模拟器与真实世界的双双登顶
在包含 24 类日常任务的 RoboCasa 中,DiT4DiT 达到了 50.8% 的成功率,远超 NVIDIA 著名的 GR00T-N1.5。在 Unitree G1 机器人的实测中,即使是面对未见过的金属杯子或完全不同的花瓶(Zero-shot),模型依然能保持极高的操作精度。

深度洞察:为什么第 18 层特征是“黄金特征”?
在消融实验中,作者发现了一个有趣的现象:动作控制最需要的不是“高清像素”。
- 提取 Video DiT 的早期层特征,性能很差,因为那是低级纹理;
- 提取末尾层特征,性能竟然也会崩塌,因为那些特征已过度特化为“像素重建”,丢失了抽象的物理语义。
- 第 18 层(中间偏深层) 才是王道,它精准捕捉了物体间的时空交互关系。
局限性与未来展望
虽然 DiT4DiT 成功地让视频生成为动作背书,但目前仍受限于单视角(Ego-view)。在复杂的双臂协作中,遮挡问题依然无解。未来的方向可能是引入多视角视频生成,并利用更大规模的跨机器人(Cross-embodiment)数据集进行大规模预训练,打造真正的机器人“大模型”。
总结
DiT4DiT 证明了:能生成物理世界动态变化的 AI,才能真正高效地学会如何操纵物理世界。 这一范式的成功,标志着机器人学习正在从“语义模仿”进入“动力学驱动”的新阶段。
