WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[arXiv 2026] DiffusionAnything:打破导航与操作的壁垒,单一扩散策略实现跨尺度统一
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 DiffusionAnything,一个统一的图像空间扩散策略框架,能够同时处理米级的机器人导航和厘米级的抓取前(Pre-grasp)动作规划。该模型通过多尺度 FiLM 条件化机制,在单一网络中实现了跨任务的端到端学习,且仅需每项任务 5 分钟的自监督数据。

TL;DR

机器人领域长期以来将“导航”(米级避障)与“操作”(厘米级精控)视为两个独立的课题。DiffusionAnything 提出了一种端到端的扩散策略(Diffusion Policy),通过多尺度 FiLM 条件化轨迹对齐深度推理,仅用一台 RTX 4090 就在单一模型中实现了从走廊穿梭到精准抓取前规划的无缝切换。它不仅推理速度快(10 Hz),且在零样本泛化能力上完胜参数量巨大的 VLA 基础模型。


1. 痛点:臃肿的 VLA 与割裂的模块化架构

当前的机器人方案面临两难境地:

  • VLA 模型(如 RT-2, GR00T):虽然具备语意推理能力,但参数量动辄数十亿,推理延迟使得高频控制几乎不可能。更糟的是,它们在陌生场景下的零样本表现往往由于缺乏显式几何推理而发生“灾难性遗忘”。
  • 传统模块化方案:导航归导航,操作归操作。这种级联结构(Cascaded Architecture)会导致误差在不同任务模块间累积,且系统切换极其僵硬。

DiffusionAnything 的核心直觉是:无论导航还是操作,本质上都是图像空间到几何轨迹的映射。通过引入环境的物理直觉(如可通行性、注意力区域),可以用极轻量级的架构实现甚至超越基础模型的效果。


2. 核心架构:多尺度 FiLM 条件化与注意力引导

模型的核心是一个基于 UNet 的扩散决策策略。为了让同一个模型识别当前是该“远眺路面”还是“近看苹果”,作者设计了三个关键设计:

多尺度特征调节 (Multi-scale FiLM)

通过嵌入任务模式(Task Mode)、深度比例(Depth Scale)和空间注意力(Spatial Attention)组成的上下文向量 $c$,模型在 UNet 的不同尺度上进行线性调制。

  • 导航模式:放大粗糙尺度特征(Coarse Scales),关注地面的可通行性。
  • 抓取前模式:放大细微尺度特征(Fine Scales),聚焦于物体的质心和边缘。

模型架构图

轨迹对齐的深度推理 (Trajectory-Aligned Depth)

为了避免计算全图深度图带来的巨大开销,DiffusionAnything 采用了按需推理策略:它只预测预测轨迹路径点上的深度值。这种设计让机器人能以极低的计算成本感知目标距离,确保了米级到厘米级的精度切换。


3. 实验表现:从“走廊”到“桌面”

在 Unitree G1 人型机器人上的实测数据令人惊艳:

  • 高精度切换:模型在抓取前规划任务中实现了 4.71 cm 的精度,相比导航任务的 29.68 cm 精度,通过深度比例条件化实现了 6 倍的性能增益。
  • 极端数据的胜利:仅需 5 分钟 的任务相关数据。通过 AnyTraverse 自动生成伪标签,无需昂贵的人工演示。
  • 对比 VLA 基础模型:在移动操作(Loco-manipulation)对比中,GR00T 在新场景下的成功率骤降至 30% 左右,而 DiffusionAnything 在新场景中依然保持了 100% 的避障成功率。

实验结果对比 上图展示了任务自适应的注意力切换:(a) 探索模式下关注地毯;(b) 导航模式下关注远端目标;(c) 抓取前模式下精准锁定物体细节。


4. 总结与深度洞察

DiffusionAnything 的成功不仅在于算法的优化,更在于其对机器人任务共性的深刻理解

  1. 几何先验的价值:仅仅依靠端到端的语义学习是不够的。引入“可通行性”和“轨迹对齐深度”这种显式的几何推理,是提升零样本泛化能力的关键。
  2. 小即是美:在机器人领域,2GB 显存、10Hz 推理的高效小模型,往往比云端部署的巨型 VLA 模型更具实用价值。

局限性:目前该模型仍高度依赖 AnyTraverse 的自监督质量。未来如果能将执行后的闭环反馈(如碰撞或抓取失败)实时在线融入扩散策略的微调中,其生命周期管理将更具想象力。


关键词:Diffusion Policy, Robot Navigation, Pre-grasp Planning, Zero-shot Generalization, FiLM Conditioning.

Find Similar Papers

Try Our Examples

  • 查找其他利用扩散模型(Diffusion Models)同时解决机器人移动导航与机械臂操作任务的最新论文。
  • 哪篇论文最早提出了 FiLM (Feature-wise Linear Modulation) 机制,DiffusionAnything 是如何将其与空间注意图结合来处理多尺度任务的?
  • 调研 AnyTraverse 框架及其在自监督机器人数据标注和可通行性分析(Traversability Analysis)中的应用原理。
Contents
[arXiv 2026] DiffusionAnything:打破导航与操作的壁垒,单一扩散策略实现跨尺度统一
1. TL;DR
2. 1. 痛点:臃肿的 VLA 与割裂的模块化架构
3. 2. 核心架构:多尺度 FiLM 条件化与注意力引导
3.1. 多尺度特征调节 (Multi-scale FiLM)
3.2. 轨迹对齐的深度推理 (Trajectory-Aligned Depth)
4. 3. 实验表现:从“走廊”到“桌面”
5. 4. 总结与深度洞察