本文提出了 Tether,一个利用语义关键点对应(Semantic Keypoint Correspondences)驱动轨迹变形(Trajectory Warping)的机器人自主功能性“游戏”系统。该方法仅需极少量演示(≤10 次),即可在复杂的现实家用场景中实现高鲁棒性的多任务自主探索,并生成高质量数据集。
TL;DR
宾夕法尼亚大学等机构的研究团队提出 Tether,这是一个突破性的机器人学习系统。它通过关键点对应驱动的轨迹变形(Tether Policy),在仅需 10 次演示的情况下,实现了从“少量演示”到“千次数据采集”的跨越。通过 VLM 引导的自主“功能性游戏”(Functional Play),机器人在无需人工重置的情况下,连续工作 26 小时产出专家级轨迹。
游戏:数据规模化的“银弹”?
在发育心理学中,儿童通过重复的“功能性游戏”学习与世界交互。而在机器人领域,获取训练数据往往意味着无休止的人工示教(Teleoperation)。
Tether 的核心动机在于:如果我们能设计一个及其鲁棒的“引导策略(Bootstrapping Policy)”,让机器人像孩子一样反复玩耍、试错并记录,我们是否就能绕过“人工成本”这一瓶颈?
核心架构:语义关键点与轨迹变形
Tether 放弃了直接训练复杂的神经网络,转而采用一种更具几何直觉的方法。
1. 轨迹变形 (Trajectory Warping)
传统的模仿学习在物体位置稍微偏移时就会失效。Tether 的做法是:
- 语义匹配:使用 DINOv2 和 Stable Diffusion 特征,在当前观察图和演示图之间找到语义一致的关键点(例如:菠萝的中心、碗的边缘)。
- 3D 投影:通过标定的相机外参,将关键点还原到 3D 空间。
- 线性插值变形:根据演示中的初始位置与当前位置的差异,通过线性插值算法“扭曲”整条机器人运动路径,使夹爪完美适配新场景。
图注:Tether 策略流程——从图像匹配到生成变形后的动作路径。
自主功能性游戏:无重置的进化循环
Tether 的第二大创新是 VLM 引导的闭环游戏系统。
- 任务规划:VLM (如 Gemini Robotics-ER 1.5) 观察场景,决定下一步玩什么(如“把菠萝放进碗里”)。
- 自然重置:通过设计相互关联的子任务(例如:移动菠萝 A 到 B,再从 B 移回 A),系统消除了对人工重置环境的需求。
- 成功评估:执行完后,VLM 充当裁判,通过对比执行前后的图像判断是否成功。

实验战绩:冷启动下的 SOTA 复现
在 12 项极具挑战性的任务(包括插入咖啡包、擦白板、开柜门等高精度操作)中,Tether 的表现令人惊叹。
- 少量数据下的碾压级性能:在只有 10 个样本的情况下,传统的 Diffusion Policy 几乎处于“黑盒”状态,而 Tether 的成功率接近 100%。
- 强大的语义泛化:即便将演示中的“菠萝”换成“草莓”,将“陶瓷碗”换成“杯子”,Tether 依然能通过关键点对应完成任务。
图注:相比于常见的基线模型 π0 和 DP,Tether 在各种操作任务上展现了极高的稳健性。
深度洞察
Tether 的成功揭示了一个重要的研究方向:在机器人领域,大模型的真正价值可能不在于“直接控制动作”,而在于提供“高级别的逻辑规划”和“稳健的语义先验”。
通过将复杂的几何变换(Warping)作为 Inductive Bias 嵌入,Tether 实际上构建了一个高效率、低干预的“真实现场模拟器”,从而源源不断地为数据饥渴的神经网络提供“食粮”。
局限与未来
尽管表现卓越,Tether 的开路执行(Open-loop)是一个潜在弱点,导致它难以应对执行过程中的突发动态变化。作者也指出,未来可以尝试将 Tether 作为一个基座(Prior),通过强化学习不断在线优化,实现动态反应能力。
关键词:Robotics, Imitation Learning, Autonomous Data Collection, VLM, Keypoint Correspondence.
