本文提出了 HDFlow,一种用于长程(Long-horizon)机器人任务的分层规划框架。该方法结合了 Diffusion 模型在高层子目标探索上的多样性,以及 Rectified Flow 模型在低层轨迹生成上的高效性,在多个复杂家具组装任务中达到了 SOTA 性能。
TL;DR
处理长程操作任务(如组装家具)是机器人的噩梦。HDFlow 提出了一种“双剑合璧”的方法:利用 Diffusion 模型 的强大探索能力来制定高层的战略子目标,同时使用 Rectified Flow 的高速特性来生成底层的执行轨迹。这种分层架构不仅解决了“算得慢”的问题,还通过能量模型(EBM)和流形保护确保了规划的“靠谱”。
核心速览:机器人规划的“效率灾难”
当前的机器人规划研究正处于生成式模型的变革期。尽管基于 Diffusion 的规划器能生成高质量的路径,但其迭代去噪的本质使得在实时控制(Low-level control)中存在严重的计算瓶颈。
HDFlow 的核心直觉在于:高层规划需要求“变”(多样探索),而低层执行需要求“快”(确定性与效率)。单一的模型范式显然无法同时满足这两个极端需求。
痛点深挖:为何长程任务如此困难?
- 误差累积 (Compounding Errors):在长时间任务中,微小的预测偏差会随时间放大,导致最终组装失败。
- 计算瓶颈:Diffusion 模型在生成密集轨迹时,频繁的迭代去噪无法满足实时机器人交互的需求。
- 流形偏移 (Manifold Deviation):在高维潜空间(Latent Space)中,受引导的生成过程往往会漂移到物理不可行的区域。
方法论详解:HDFlow 的两阶段架构
1. 结构化潜空间学习 (Stage 1)
HDFlow 不直接在像素空间规划,而是基于 RSSM (Recurrent State Space Model) 构建了一个潜空间世界模型。为了让这个空间更有利于规划,作者引入了对比学习 (Contrastive Learning):将成功轨迹的中间状态拉向目标状态,将失败状态推开,从而让潜空间自带“进度感”。
2. 分层规划器训练 (Stage 2)
- 高层 (High-Level Diffusion):生成稀疏的子目标序列。
- EBM 引导:引入能量模型识别“看起来行但实际会失败”的方案。
- 流形感知投影:通过 PCA 和最近邻技术,将偏离的子目标强行“拉回”到可行的流形上。
- 低层 (Low-Level Rectified Flow):连接子目标。
- ODE 轨迹合成:Rectified Flow 通过求解常微分方程,能够以极少的步数生成平滑、直线的密集轨迹。
图 1:HDFlow 流程图。左侧为结构化潜空间学习,右侧展示了高层 Diffusion 生成子目标与低层 Rectified Flow 合成轨迹的过程。
实验与结果:性能与速度的双重飞跃
SOTA 性能对比
在 FurnitureBench 的组装任务中,HDFlow 在各种随机初始化条件下均大幅领先。例如在 one_leg 任务中,HDFlow 的成功率(92%)几乎是现有分层扩散模型 SHD(71%)的进步版。
表 1:在不同随机化水平下各任务的成功率对比。
推理效率分析
实验数据证明,HDFlow 的推理时间(88ms)远低于纯分层扩散架构 HD(142ms),实现了精度与速度的平衡。
表 2:不同架构间的成功率 (SR) 与推理时间对比。
深度洞察与总结
HDFlow 的成功关键在于对不同层级需求的精准匹配。
- Diffusion 的角色:它更像是一个具有想象力的“指挥官”,探索各种可能的步骤。
- Rectified Flow 的角色:它更像是一个高效的“执行官”,沿着直线路径快速前进。
- 流形保护:即使指挥官偶尔异想天开,流形投影机制也会确保任务回到物理常识的轨道上。
结论与展望: HDFlow 证明了在具身智能中,没有一种“万能模型”可以包打天下。通过对生成模型的特性进行模块化组合,我们可以在保证长程任务成功率的同时,兼顾机器人最迫切的实时性需求。虽然其目前依赖专家数据进行 EBM 训练,但这种“分而治之”的思路将为未来的自主技能学习提供重要参考。
