TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

[CVPR 2025] TiPToP：无需训练数据，基于基础模型的模块化机器人规划系统

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 TiPToP，一种模块化的开放词汇机器人操纵系统，通过集成预训练视觉基础模型（如 Gemini 1.5, SAM-2）与 GPU 加速的任务与运动规划器（cuTAMP），实现了无需机器人特定数据训练的跨平台部署。在 28 项桌面任务中，其性能达到或超过了经过 350 小时真人演示数据微调的 SOTA VLA 模型 π0.5-DROID。

TL;DR

TiPToP 是一个“开箱即用”的机器人操纵系统。它不走端到端学习（End-to-End Learning）的老路，而是将强大的视觉基础模型（VLMs）与 GPU 并行化的任务与运动规划器（TAMP）结合。它在没有任何机器人具身数据训练的前提下，在复杂多步任务中击败了耗费 350 小时数据训练的实体模型，且部署到新平台仅需 1 小时。

痛点深挖：数据饥渴 vs. 泛化困境

当前的机器人领域正处于 VLA（Vision-Language-Action）模型 的热潮中，如 π0.5 或 OpenVLA。这些模型虽然强大，但存在两个致命伤：

数据成本极高：需要成百上千小时的专家演示数据。
解释性差：当机器人“抓空了”或者“语义理解错误”时，你无法得知是哪个环节出了问题。

与此同时，传统的 TAMP（任务与运动规划） 虽然能处理逻辑复杂的任务（如：把挡路的杯子挪开再拿瓶子），但它需要预先知道物体的精确 3D 模型和位置，这在开放场景下几乎不可能实现。

方法论：TiPToP 的模块化哲学

TiPToP 的核心逻辑是将任务拆解为：看得懂（语义）、算得准（几何）、跑得稳（控制）。

1. 语义与感知的深度融合

TiPToP 利用 Gemini 1.5 作为其“大脑”，负责解析自然语言指令（如“把花生酱饼干放进盘子里”），并识别出场景中对应的物体边界框。随后，SAM-2 负责像素级的分割。为了获得更精确的 3D 信心，它使用了 FoundationStereo 进行零样本深度估计，比商业相机自带的深度信息更纯净。

2. cuTAMP：GPU 加速的并行规划

一旦有了 3D 场景表示，cuTAMP 模块会在 GPU 上开启数千个并行线程，搜索各种可能的动作路径（Plan Skeletons）。

它不仅考虑“抓取”，还考虑“避障”和“稳定性”。
如果直达目标的路径被挡住，它会自动生成“先挪开障碍物”的子任务方案。

模型架构图 图 2：TiPToP 系统概览。左侧为基于基础模型的感知流，中间为 cuTAMP 规划流，右侧为执行流。

实验对比：凌驾于数据驱动之上

研究团队在 DROID 平台上进行了严苛的对比实验。

语义推理任务：TiPToP 在“把最大的玩具放进紫色盘子”等这类需要常识理解的任务中完胜，而 π0.5-DROID 经常无法正确识别目标。
多步规划任务：在需要清理障碍物（Obstacle Removal）的场景下，TiPToP 的规划能力展现了绝对优势。
推理速度：虽然 TiPToP 系统更复杂，但由于使用了 GPU 并行加速，其完成任务的总时长往往比 VLA 模型更短。

实验结果对比 表 1：TiPToP 与 π0.5-DROID 在不同任务类型下的成功率（SR）对比。

深度洞察：模块化的优势

TiPToP 最迷人的地方在于它的可调试性。通过 Sankey 图分析，团队发现系统绝大多数的失败源于“抓取误差（Grasping Failures）”，而非逻辑错误。这意味着，当明年出现更强的抓取预测模型（如 M2T2 的后续版本）时，研究者只需要像换零件一样替换掉该模块，整个 TiPToP 的性能就会垂直提升，而无需重新训练整个系统。

失效分析 图 5：173 次实验的失败模式分析图。

局限性与展望

尽管表现亮眼，TiPToP 目前仍是一个**开环执行（Open-loop）**系统。这意味着如果在抓取过程中物体滑落，它无法像人类一样实时调整。

作者在结论中指出，未来的方向不是让规划器消失，而是将 VLA 模型作为子技能集成到 TiPToP 框架中。通过这种方式，规划器负责大局观，而学习模型负责细腻的闭环控制（Reactivity），这或许才是通向通用机器人的终极路径。

总结

TiPToP 再次证明了：在机器人领域，经典的 Symbolic Reasoning（符号推理）与现代的 Foundation Models（基础模型）结合，能产生比单纯的神经网络微调大得多的能量。

Find Similar Papers

Try Our Examples

查找最近其他试图将大语言模型（LLM）或多模态大模型（VLM）与经典 TAMP 框架集成的机器人论文。
哪篇论文最早提出了 cuTAMP（GPU 加速的任务与运动规划），TiPToP 在此基础上做了哪些针对现实环境的改进？
有哪些研究在探讨如何将 VLA 模型的闭环感知能力作为底层技能（Primitive）融入到高层规划系统的架构中？

Contents

[CVPR 2025] TiPToP：无需训练数据，基于基础模型的模块化机器人规划系统

1. TL;DR

2. 痛点深挖：数据饥渴 vs. 泛化困境

3. 方法论：TiPToP 的模块化哲学

3.1. 1. 语义与感知的深度融合

3.2. 2. cuTAMP：GPU 加速的并行规划

4. 实验对比：凌驾于数据驱动之上

5. 深度洞察：模块化的优势

6. 局限性与展望

7. 总结