DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

DiffusionAnything: End-to-End In-context Diffusion Learning for Unified Navigation and Pre-Grasp Motion

[arXiv 2026] DiffusionAnything：打破导航与操作的壁垒，单一扩散策略实现跨尺度统一

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DiffusionAnything，一个统一的图像空间扩散策略框架，能够同时处理米级的机器人导航和厘米级的抓取前（Pre-grasp）动作规划。该模型通过多尺度 FiLM 条件化机制，在单一网络中实现了跨任务的端到端学习，且仅需每项任务 5 分钟的自监督数据。

TL;DR

机器人领域长期以来将“导航”（米级避障）与“操作”（厘米级精控）视为两个独立的课题。DiffusionAnything 提出了一种端到端的扩散策略（Diffusion Policy），通过多尺度 FiLM 条件化和轨迹对齐深度推理，仅用一台 RTX 4090 就在单一模型中实现了从走廊穿梭到精准抓取前规划的无缝切换。它不仅推理速度快（10 Hz），且在零样本泛化能力上完胜参数量巨大的 VLA 基础模型。

1. 痛点：臃肿的 VLA 与割裂的模块化架构

当前的机器人方案面临两难境地：

VLA 模型（如 RT-2, GR00T）：虽然具备语意推理能力，但参数量动辄数十亿，推理延迟使得高频控制几乎不可能。更糟的是，它们在陌生场景下的零样本表现往往由于缺乏显式几何推理而发生“灾难性遗忘”。
传统模块化方案：导航归导航，操作归操作。这种级联结构（Cascaded Architecture）会导致误差在不同任务模块间累积，且系统切换极其僵硬。

DiffusionAnything 的核心直觉是：无论导航还是操作，本质上都是图像空间到几何轨迹的映射。通过引入环境的物理直觉（如可通行性、注意力区域），可以用极轻量级的架构实现甚至超越基础模型的效果。

2. 核心架构：多尺度 FiLM 条件化与注意力引导

模型的核心是一个基于 UNet 的扩散决策策略。为了让同一个模型识别当前是该“远眺路面”还是“近看苹果”，作者设计了三个关键设计：

多尺度特征调节 (Multi-scale FiLM)

通过嵌入任务模式（Task Mode）、深度比例（Depth Scale）和空间注意力（Spatial Attention）组成的上下文向量 $c$，模型在 UNet 的不同尺度上进行线性调制。

导航模式：放大粗糙尺度特征（Coarse Scales），关注地面的可通行性。
抓取前模式：放大细微尺度特征（Fine Scales），聚焦于物体的质心和边缘。

模型架构图

轨迹对齐的深度推理 (Trajectory-Aligned Depth)

为了避免计算全图深度图带来的巨大开销，DiffusionAnything 采用了按需推理策略：它只预测预测轨迹路径点上的深度值。这种设计让机器人能以极低的计算成本感知目标距离，确保了米级到厘米级的精度切换。

3. 实验表现：从“走廊”到“桌面”

在 Unitree G1 人型机器人上的实测数据令人惊艳：

高精度切换：模型在抓取前规划任务中实现了 4.71 cm 的精度，相比导航任务的 29.68 cm 精度，通过深度比例条件化实现了 6 倍的性能增益。
极端数据的胜利：仅需 5 分钟 的任务相关数据。通过 AnyTraverse 自动生成伪标签，无需昂贵的人工演示。
对比 VLA 基础模型：在移动操作（Loco-manipulation）对比中，GR00T 在新场景下的成功率骤降至 30% 左右，而 DiffusionAnything 在新场景中依然保持了 100% 的避障成功率。

实验结果对比 上图展示了任务自适应的注意力切换：(a) 探索模式下关注地毯；(b) 导航模式下关注远端目标；(c) 抓取前模式下精准锁定物体细节。

4. 总结与深度洞察

DiffusionAnything 的成功不仅在于算法的优化，更在于其对机器人任务共性的深刻理解。

几何先验的价值：仅仅依靠端到端的语义学习是不够的。引入“可通行性”和“轨迹对齐深度”这种显式的几何推理，是提升零样本泛化能力的关键。
小即是美：在机器人领域，2GB 显存、10Hz 推理的高效小模型，往往比云端部署的巨型 VLA 模型更具实用价值。

局限性：目前该模型仍高度依赖 AnyTraverse 的自监督质量。未来如果能将执行后的闭环反馈（如碰撞或抓取失败）实时在线融入扩散策略的微调中，其生命周期管理将更具想象力。

关键词：Diffusion Policy, Robot Navigation, Pre-grasp Planning, Zero-shot Generalization, FiLM Conditioning.

Find Similar Papers

Try Our Examples

查找其他利用扩散模型（Diffusion Models）同时解决机器人移动导航与机械臂操作任务的最新论文。
哪篇论文最早提出了 FiLM (Feature-wise Linear Modulation) 机制，DiffusionAnything 是如何将其与空间注意图结合来处理多尺度任务的？
调研 AnyTraverse 框架及其在自监督机器人数据标注和可通行性分析（Traversability Analysis）中的应用原理。

Contents

[arXiv 2026] DiffusionAnything：打破导航与操作的壁垒，单一扩散策略实现跨尺度统一

1. TL;DR

2. 1. 痛点：臃肿的 VLA 与割裂的模块化架构

3. 2. 核心架构：多尺度 FiLM 条件化与注意力引导

3.1. 多尺度特征调节 (Multi-scale FiLM)

3.2. 轨迹对齐的深度推理 (Trajectory-Aligned Depth)

4. 3. 实验表现：从“走廊”到“桌面”

5. 4. 总结与深度洞察