OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

[CVPR 2025(?)] OMNIGUIDE：让通用机器人策略“听指挥”的万能制导场

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 OMNIGUIDE，这是一个为生成式机器人策略（如 VLA 模型）设计的通用推理时引导框架。该框架将 3D 几何、语义推理和人类演示等外部知识统一建模为可微能量函数，通过修改扩散或流匹配过程中的行为采样，显著提升了通用机器人在复杂任务中的操作精度与安全性。

TL;DR

即使是最强的 Vision-Language-Action (VLA) 模型（如 π0.5, GR00T），在面对精细操作或突发障碍时也常力不从心。宾夕法尼亚大学团队提出的 OMNIGUIDE 框架，通过在推理阶段引入“制导场”（Guidance Fields），将外部基础模型（如 3D 重建、人类姿态估计、VLM 等）提供的知识转化为可微的能量函数，在不改动模型参数的前提下，以 15Hz 的速度实时修正机器人动作，让成功率和安全性实现了跨越式增长。

痛点深挖：通用机器人的“最后一公里”难题

当前的典型范式是利用大规模人类操作数据通过行为克隆（BC）训练 VLA 模型。虽然这赋予了机器人广泛的语义理解力，但在实际部署中，它们经常在“临门一脚”时失灵：

缺乏精确几何感：无法精准避开动态障碍物或细长物体。
空间立场模糊：难以在多个相似物体中定位指令指定的特定目标。
运动轨迹不自然：单靠 BC 难以泛化到未见过的人类动作逻辑。

以往的解决方案通常是针对特定场景进行昂贵的后期微调（Fine-tuning），但这就像为了换个灯泡而重装整个电力系统。

核心机制：统一制导场 (Universal Guidance Fields)

OMNIGUIDE 的核心直觉是：让 VLA 预训练模型负责生成候选轨迹的“自然感”，而让外部制导场负责“纠偏”。

1. 将动作采样视为能量优化

OMNIGUIDE 针对基于流匹配（Flow Matching）或扩散（Diffusion）的策略，通过以下链条执行引导：

预测与解码：从当前噪声动作 $A^{a} u$ 预测清晰动作轨迹。
映射到物理空间：利用可微运动学模型，将动作转化为笛卡尔空间中的末端路径 $X$ 。
计算能量惩罚：根据避障感知（排斥场）或语义目标（吸引场）计算能量 $L_{y}$ 。
梯度回传：将梯度 $ab l a_{A^{a} u} L_{y}$ 注入降噪步骤，迫使模型向更安全、更符合目标的方向演化。

模型架构图 图：OMNIGUIDE 如何融合排斥场（避障）与吸引场（目标定位）来实时修正轨迹。

2. 多样化的引导源

避障引导：利用点云构建 Signed Distance Function (SDF)，生成远离障碍物的梯度。
语义引导：引入 Gemini-2.5 等大模型定位 2D 目标，再投影回 3D 空间作为吸引点。
人类演示引导：通过单次录像跟踪人类手部轨迹，并利用动态时间规整（DTW）对齐算法引导机器人模仿。

实验战绩：全方位的性能碾压

在 RoboCasa 厨房模拟器中，OMNIGUIDE 展现了惊人的协同效应：单纯的避障引导能大幅提升安全性，而当避障与语义引导叠加时，机器人既能准确拿到复杂的目标（如“放进 celebrity X 旁边的碗里”），又能完美避开桌面上杂乱的障碍。

实验结果对比 数据显示：OMNIGUIDE 在成功率和安全性上均大幅超越原始 VLA 基线。

在实机测试中，即便面临突然伸入的阻挡手臂（Reactive 任务），OMNIGUIDE 也能凭借其 15Hz 的响应频率快速绕开，表现出了极强的鲁棒性。

深度洞察：为什么这种“非入库”方案有效？

零重训练成本：这是一种纯推理端的技术。这意味着你可以随意更替底部的 VLA 模型，或顶部的视觉感知库。
克服局部最优：传统的能量场方法容易陷入局部极小值（如被障碍物卡住），但由于 OMNIGUIDE 背后有预训练 VLA 的“概率分布”加持，模型倾向于在自然动作空间内寻找出路，规避了常见的机械感震荡。
即时语义修正：通过调用最强的 VLM（如 Gemini 1.5/2.5），赋予了中低参数量机器人原本不具备的高级推理能力。

局限与未来

虽然 OMNIGUIDE 在轨迹层面的表现极为出色，但在处理精细接触动力学（如拧螺丝、插拔）时，仅靠空间能量场引导仍显不足。未来的方向可能在于引入力反馈引导、物体中心化（Object-centric）表征，甚至利用生成视频模型作为更高级的动作参考。

总结：OMNIGUIDE 标志着机器人控制正从“盲目的模仿学习”转向“受约束的灵活生成”，是迈向更可控、更通用具身智能的关键一步。

Find Similar Papers

Try Our Examples

查找最近一年关于大语言模型引导（Guided Generation）在机器人轨迹规划中的其他 SOTA 方法。
哪篇论文最早尝试在扩散策略（Diffusion Policy）中引入分类器引导（Classifier Guidance），本文的能量场建模相比之下有哪些独特性？
有哪些最新的研究正尝试将 3D 基础模型（如 FoundationPose 或 3DGS）直接集成到 VLA 模型的端到端推理闭环中？

Contents

[CVPR 2025(?)] OMNIGUIDE：让通用机器人策略“听指挥”的万能制导场

1. TL;DR

2. 痛点深挖：通用机器人的“最后一公里”难题

3. 核心机制：统一制导场 (Universal Guidance Fields)

3.1. 1. 将动作采样视为能量优化

3.2. 2. 多样化的引导源

4. 实验战绩：全方位的性能碾压

5. 深度洞察：为什么这种“非入库”方案有效？

6. 局限与未来