WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025(?)] OMNIGUIDE:让通用机器人策略“听指挥”的万能制导场
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 OMNIGUIDE,这是一个为生成式机器人策略(如 VLA 模型)设计的通用推理时引导框架。该框架将 3D 几何、语义推理和人类演示等外部知识统一建模为可微能量函数,通过修改扩散或流匹配过程中的行为采样,显著提升了通用机器人在复杂任务中的操作精度与安全性。

TL;DR

即使是最强的 Vision-Language-Action (VLA) 模型(如 π0.5, GR00T),在面对精细操作或突发障碍时也常力不从心。宾夕法尼亚大学团队提出的 OMNIGUIDE 框架,通过在推理阶段引入“制导场”(Guidance Fields),将外部基础模型(如 3D 重建、人类姿态估计、VLM 等)提供的知识转化为可微的能量函数,在不改动模型参数的前提下,以 15Hz 的速度实时修正机器人动作,让成功率和安全性实现了跨越式增长。

痛点深挖:通用机器人的“最后一公里”难题

当前的典型范式是利用大规模人类操作数据通过行为克隆(BC)训练 VLA 模型。虽然这赋予了机器人广泛的语义理解力,但在实际部署中,它们经常在“临门一脚”时失灵:

  • 缺乏精确几何感:无法精准避开动态障碍物或细长物体。
  • 空间立场模糊:难以在多个相似物体中定位指令指定的特定目标。
  • 运动轨迹不自然:单靠 BC 难以泛化到未见过的人类动作逻辑。

以往的解决方案通常是针对特定场景进行昂贵的后期微调(Fine-tuning),但这就像为了换个灯泡而重装整个电力系统。

核心机制:统一制导场 (Universal Guidance Fields)

OMNIGUIDE 的核心直觉是:让 VLA 预训练模型负责生成候选轨迹的“自然感”,而让外部制导场负责“纠偏”。

1. 将动作采样视为能量优化

OMNIGUIDE 针对基于流匹配(Flow Matching)或扩散(Diffusion)的策略,通过以下链条执行引导:

  1. 预测与解码:从当前噪声动作 预测清晰动作轨迹。
  2. 映射到物理空间:利用可微运动学模型,将动作转化为笛卡尔空间中的末端路径
  3. 计算能量惩罚:根据避障感知(排斥场)或语义目标(吸引场)计算能量
  4. 梯度回传:将梯度 注入降噪步骤,迫使模型向更安全、更符合目标的方向演化。

模型架构图 图:OMNIGUIDE 如何融合排斥场(避障)与吸引场(目标定位)来实时修正轨迹。

2. 多样化的引导源

  • 避障引导:利用点云构建 Signed Distance Function (SDF),生成远离障碍物的梯度。
  • 语义引导:引入 Gemini-2.5 等大模型定位 2D 目标,再投影回 3D 空间作为吸引点。
  • 人类演示引导:通过单次录像跟踪人类手部轨迹,并利用动态时间规整(DTW)对齐算法引导机器人模仿。

实验战绩:全方位的性能碾压

在 RoboCasa 厨房模拟器中,OMNIGUIDE 展现了惊人的协同效应:单纯的避障引导能大幅提升安全性,而当避障与语义引导叠加时,机器人既能准确拿到复杂的目标(如“放进 celebrity X 旁边的碗里”),又能完美避开桌面上杂乱的障碍。

实验结果对比 数据显示:OMNIGUIDE 在成功率和安全性上均大幅超越原始 VLA 基线。

在实机测试中,即便面临突然伸入的阻挡手臂(Reactive 任务),OMNIGUIDE 也能凭借其 15Hz 的响应频率快速绕开,表现出了极强的鲁棒性。

深度洞察:为什么这种“非入库”方案有效?

  1. 零重训练成本:这是一种纯推理端的技术。这意味着你可以随意更替底部的 VLA 模型,或顶部的视觉感知库。
  2. 克服局部最优:传统的能量场方法容易陷入局部极小值(如被障碍物卡住),但由于 OMNIGUIDE 背后有预训练 VLA 的“概率分布”加持,模型倾向于在自然动作空间内寻找出路,规避了常见的机械感震荡。
  3. 即时语义修正:通过调用最强的 VLM(如 Gemini 1.5/2.5),赋予了中低参数量机器人原本不具备的高级推理能力。

局限与未来

虽然 OMNIGUIDE 在轨迹层面的表现极为出色,但在处理精细接触动力学(如拧螺丝、插拔)时,仅靠空间能量场引导仍显不足。未来的方向可能在于引入力反馈引导、物体中心化(Object-centric)表征,甚至利用生成视频模型作为更高级的动作参考。

总结:OMNIGUIDE 标志着机器人控制正从“盲目的模仿学习”转向“受约束的灵活生成”,是迈向更可控、更通用具身智能的关键一步。

Find Similar Papers

Try Our Examples

  • 查找最近一年关于大语言模型引导(Guided Generation)在机器人轨迹规划中的其他 SOTA 方法。
  • 哪篇论文最早尝试在扩散策略(Diffusion Policy)中引入分类器引导(Classifier Guidance),本文的能量场建模相比之下有哪些独特性?
  • 有哪些最新的研究正尝试将 3D 基础模型(如 FoundationPose 或 3DGS)直接集成到 VLA 模型的端到端推理闭环中?
Contents
[CVPR 2025(?)] OMNIGUIDE:让通用机器人策略“听指挥”的万能制导场
1. TL;DR
2. 痛点深挖:通用机器人的“最后一公里”难题
3. 核心机制:统一制导场 (Universal Guidance Fields)
3.1. 1. 将动作采样视为能量优化
3.2. 2. 多样化的引导源
4. 实验战绩:全方位的性能碾压
5. 深度洞察:为什么这种“非入库”方案有效?
6. 局限与未来