WisPaper
WisPaper
学术搜索
学术问答
论文订阅
价格
TrueCite
[CVPR 2025] MMaDA-VLA:超越自回归,用原生扩散模型统一机器人的“见、思、行”
总结
问题
方法
结果
要点
摘要

本文提出了 MMaDA-VLA,一种原生大规模离散扩散视觉-语言-动作模型。该模型通过统一的离散 Token 空间,将指令理解、未来场景预测(Goal Observation)和动作执行(Action Chunk)集成在单一的 Masked Token 降噪框架下,显著提升了机器人的长程操作能力。

TL;DR

传统的机器人大模型(VLA)往往像写文章一样“逐字”预测动作,这在处理复杂的物理操作时容易导致“一步错步步错”。本文提出的 MMaDA-VLA 抛弃了传统的自回归范式,引入了**原生离散扩散(Discrete Diffusion)**框架。它不仅能理解指令,还能在脑中预演“未来画面”,并以此为基准,通过多次并行迭代精炼出一整块动作序列。在 CALVIN 等长程任务中,它的表现远超 OpenVLA 等强基线,成功率达到了惊人的 90% 以上。

核心痛点:为什么机器人不该“自回归”?

目前主流的机器人策略模型面临两个核心挑战:

  1. 顺序偏见(Order Bias):机器人的 7 自由度动作向量各维度之间是空间相关的,并没有严格的先后顺序。强行用自回归(LLM 这种从左到右)的方式预测动作,会引入不必要的逻辑负担。
  2. 动力学缺失:很多模型只管低头“做动作”,而不抬头“看路”。它们缺乏对动作执行后环境会变成什么样的预判。

模型架构与对比图 注:左图展示了传统 VLA 与 MMaDA-VLA 在架构上的本质区别:从级联到统一生成的跃迁。

MMaDA-VLA 的解法:万物皆可 Diffusion

MMaDA-VLA 的核心思想非常纯粹:将视觉、语言、动作全部离散化为 Token,然后用一个扩散模型来搞定一切。

1. 统一 Token 空间 (Unified Token Space)

模型使用 MAGVIT-v2 处理图像,用文本 Tokenizer 处理指令,并对连续动作进行量化分箱。这样,所有的输入都变成了模型可以处理的符号序列。

2. 并行降噪与混合注意力

这是本文的“物理直觉”所在。模型在推理时,会先在“未来图像”和“动作序列”的位置填满噪声(Mask Token)。 接下来,模型分多次(如 24 步)进行迭代降噪

  • 在每一次迭代中,动作 Token 会参考正在生成的“未来目标图”。
  • 混合注意力机制:同一模态内部使用全向注意力(Bidirectional),确保动作各维度之间互相观测;不同模态间使用因果注意力,确保生成过程受到指令的约束。

模型整体架构图 MMaDA-VLA 的全景架构:从多模态输入到并行 token 生成的完整闭环。

实验战绩:全方位 SOTA

MMaDA-VLA 在仿真和真机实验中表现出了极强的韧性。

  • CALVIN 长程挑战:在最难的 ABC→D 迁移设置下,它能连续完成近 5 个子任务,平均执行长度为 4.78,几乎解决了这一基准。
  • 真机鲁棒性:在面对人体干扰、目标物突然位移时,MMaDA-VLA 展现出了惊人的“纠错”能力。这得益于扩散模型的非顺序特性,它可以在发现错误后通过后续的 Denoising 步尝试拉回正确的轨迹。

实验结果对比表 结果分析:在几乎所有维度上,MMaDA-VLA 均显著优于基于流匹配(Flow-based)或简单行为克隆的模型。

深度洞察:不仅仅是预测,更是“想好了再做”

作者在分析中指出,即便生成的“未来图”在像素层面不够精细,但它捕捉到的任务语义(Task Dynamics)——比如夹爪应该在哪个位置闭合——对于动作的执行至关重要。

此外,为了解决扩散模型采样慢的问题,模型引入了类似大模型 KV Cache 的优化,通过自适应缓存更新,在保证精度的前提下大大提升了实时控制的频率。

总结与局限

MMaDA-VLA 代表了具身智能模型的一个重要趋势:原生化与生成化局限性:尽管它非常强大,但受限于离散 Token 的分辨率,目前在处理极其精密的工业操作(微米级对齐)时,可能仍需进一步优化高效率的 Tokenizer。

未来的研究方向可能会集中在如何让这种扩散 VLA 具备更强的实时推理能力,以及在更具挑战性的开放世界场景中通过 Pre-training 涌现出更强的泛化性。

发现相似论文

试试这些示例

  • 查找最近其他使用离散扩散(Discrete Diffusion)或 Masked Modeling 替代自回归生成进行机器人动作预测的 SOTA 论文。
  • 追溯 MAGVIT-v2 和 LLaDA 模型在多模态统一表示中的理论基础,本文如何在 MMaDA-VLA 中整合这两者的 Tokenization 策略?
  • 有哪些研究探讨了将扩散模型生成的“未来目标图像”作为行为克隆(BC)或强化学习(RL)策略的显式引导信号?
目录
[CVPR 2025] MMaDA-VLA:超越自回归,用原生扩散模型统一机器人的“见、思、行”
1. TL;DR
2. 核心痛点:为什么机器人不该“自回归”?
3. MMaDA-VLA 的解法:万物皆可 Diffusion
3.1. 1. 统一 Token 空间 (Unified Token Space)
3.2. 2. 并行降噪与混合注意力
4. 实验战绩:全方位 SOTA
5. 深度洞察:不仅仅是预测,更是“想好了再做”
6. 总结与局限