WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025] TiPToP:无需训练数据,基于基础模型的模块化机器人规划系统
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 TiPToP,一种模块化的开放词汇机器人操纵系统,通过集成预训练视觉基础模型(如 Gemini 1.5, SAM-2)与 GPU 加速的任务与运动规划器(cuTAMP),实现了无需机器人特定数据训练的跨平台部署。在 28 项桌面任务中,其性能达到或超过了经过 350 小时真人演示数据微调的 SOTA VLA 模型 π0.5-DROID。

TL;DR

TiPToP 是一个“开箱即用”的机器人操纵系统。它不走端到端学习(End-to-End Learning)的老路,而是将强大的视觉基础模型(VLMs)与 GPU 并行化的任务与运动规划器(TAMP)结合。它在没有任何机器人具身数据训练的前提下,在复杂多步任务中击败了耗费 350 小时数据训练的实体模型,且部署到新平台仅需 1 小时。

痛点深挖:数据饥渴 vs. 泛化困境

当前的机器人领域正处于 VLA(Vision-Language-Action)模型 的热潮中,如 π0.5 或 OpenVLA。这些模型虽然强大,但存在两个致命伤:

  1. 数据成本极高:需要成百上千小时的专家演示数据。
  2. 解释性差:当机器人“抓空了”或者“语义理解错误”时,你无法得知是哪个环节出了问题。

与此同时,传统的 TAMP(任务与运动规划) 虽然能处理逻辑复杂的任务(如:把挡路的杯子挪开再拿瓶子),但它需要预先知道物体的精确 3D 模型和位置,这在开放场景下几乎不可能实现。

方法论:TiPToP 的模块化哲学

TiPToP 的核心逻辑是将任务拆解为:看得懂(语义)算得准(几何)跑得稳(控制)

1. 语义与感知的深度融合

TiPToP 利用 Gemini 1.5 作为其“大脑”,负责解析自然语言指令(如“把花生酱饼干放进盘子里”),并识别出场景中对应的物体边界框。随后,SAM-2 负责像素级的分割。为了获得更精确的 3D 信心,它使用了 FoundationStereo 进行零样本深度估计,比商业相机自带的深度信息更纯净。

2. cuTAMP:GPU 加速的并行规划

一旦有了 3D 场景表示,cuTAMP 模块会在 GPU 上开启数千个并行线程,搜索各种可能的动作路径(Plan Skeletons)。

  • 它不仅考虑“抓取”,还考虑“避障”和“稳定性”。
  • 如果直达目标的路径被挡住,它会自动生成“先挪开障碍物”的子任务方案。

模型架构图 图 2:TiPToP 系统概览。左侧为基于基础模型的感知流,中间为 cuTAMP 规划流,右侧为执行流。

实验对比:凌驾于数据驱动之上

研究团队在 DROID 平台上进行了严苛的对比实验。

  • 语义推理任务:TiPToP 在“把最大的玩具放进紫色盘子”等这类需要常识理解的任务中完胜,而 π0.5-DROID 经常无法正确识别目标。
  • 多步规划任务:在需要清理障碍物(Obstacle Removal)的场景下,TiPToP 的规划能力展现了绝对优势。
  • 推理速度:虽然 TiPToP 系统更复杂,但由于使用了 GPU 并行加速,其完成任务的总时长往往比 VLA 模型更短。

实验结果对比 表 1:TiPToP 与 π0.5-DROID 在不同任务类型下的成功率(SR)对比。

深度洞察:模块化的优势

TiPToP 最迷人的地方在于它的可调试性。 通过 Sankey 图分析,团队发现系统绝大多数的失败源于“抓取误差(Grasping Failures)”,而非逻辑错误。这意味着,当明年出现更强的抓取预测模型(如 M2T2 的后续版本)时,研究者只需要像换零件一样替换掉该模块,整个 TiPToP 的性能就会垂直提升,而无需重新训练整个系统。

失效分析 图 5:173 次实验的失败模式分析图。

局限性与展望

尽管表现亮眼,TiPToP 目前仍是一个**开环执行(Open-loop)**系统。这意味着如果在抓取过程中物体滑落,它无法像人类一样实时调整。

作者在结论中指出,未来的方向不是让规划器消失,而是将 VLA 模型作为子技能集成到 TiPToP 框架中。通过这种方式,规划器负责大局观,而学习模型负责细腻的闭环控制(Reactivity),这或许才是通向通用机器人的终极路径。

总结

TiPToP 再次证明了:在机器人领域,经典的 Symbolic Reasoning(符号推理)与现代的 Foundation Models(基础模型)结合,能产生比单纯的神经网络微调大得多的能量。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图将大语言模型(LLM)或多模态大模型(VLM)与经典 TAMP 框架集成的机器人论文。
  • 哪篇论文最早提出了 cuTAMP(GPU 加速的任务与运动规划),TiPToP 在此基础上做了哪些针对现实环境的改进?
  • 有哪些研究在探讨如何将 VLA 模型的闭环感知能力作为底层技能(Primitive)融入到高层规划系统的架构中?
Contents
[CVPR 2025] TiPToP:无需训练数据,基于基础模型的模块化机器人规划系统
1. TL;DR
2. 痛点深挖:数据饥渴 vs. 泛化困境
3. 方法论:TiPToP 的模块化哲学
3.1. 1. 语义与感知的深度融合
3.2. 2. cuTAMP:GPU 加速的并行规划
4. 实验对比:凌驾于数据驱动之上
5. 深度洞察:模块化的优势
6. 局限性与展望
7. 总结