本文提出了 TER-DAgger,一种面向高精度插拔任务的力觉感知人机协作模仿学习框架。该方法通过基于优化的轨迹编辑(Trajectory Editing)学习残差策略,并利用力预测偏差实现高效的故障预警,显著提升了机器人处理接触密集型任务的鲁棒性。
TL;DR
在高精度的电子元件组装任务中,微小的位置偏差就会导致巨大的接触力,进而造成任务失败甚至设备损坏。本文提出的 TER-DAgger 框架,通过“力觉预测纠偏”和“优化驱动的轨迹编辑”,让机器人在发现异常时能主动向人类寻求帮助,并以一种“平滑过渡”的方式学习人类的纠偏经验。实验结果表明,该方法在真实世界复杂插拔任务中的成功率大幅超越了传统的行为克隆(BC)和 fine-tuning 方法。
1. 痛点:为什么插拔任务这么难?
传统的模仿学习(如 ACT, Diffusion Policy)大多依赖视觉和本体感受导出位置指令。然而,在 Contact-rich(接触密集) 的场景下:
- 协变量偏移 (Covariate Shift):模型在执行过程中的一点点误差会累积,导致进入训练集从未覆盖的“死区”。
- 监控成本极高:传统的 DAgger 需要人类专家像“陪练”一样时刻盯着屏幕,一旦出错立即接管,这在工业大规模部署中完全不可行。
- 动作突变:人类介入时的强行接管会产生动作不连续,反而给控制器带来冲击。
2. 核心直觉:力是最好的“报警器”
作者提出了一个非常深刻的洞察:物理相互作用中的力预测误差是检测分布外(OOD)状态的最灵敏指标。
图 1:TER-DAgger 的整体流水线与架构视图
如上图所示,Base Policy 不仅预测未来的动作序列,还会预测末端执行器应该感受到的期望力 (Predicted Force)。
- 当实测力与预测力偏差 超过阈值时,系统判定发生异常,暂停执行并请求人类介入。
- 这种方法比传统的模型不确定性估计(如 KL Loss)更准确,平均精确度高达 98.8%。
3. 方法论:平滑的轨迹编辑 (Trajectory Editing)
当人类提供纠偏演示后,TER-DAgger 并没有简单地将数据喂给模型,而是进行了一次“局部轨迹优化”。
3.1 寻找最近对齐点
算法会在原始轨迹上找到与人类演示起点最接近的点 。
3.2 三项指标优化
通过求解一个优化问题,生成一段平滑连接原始轨迹与纠偏轨迹的过渡段:
- Fidelity Term:保持与原轨迹的相似性。
- Smoothness Term:保证运动学上的连续性(不卡顿)。
- Endpoint Term:精准对接人类演示的起点。
3.3 残差策略学习
最终学习的是一个 Residual Policy,它的输出是基准策略(Base Policy)的补丁(Correction)。这样即使在正常状态下不触发纠偏, residual 也会输出 0,保证了系统的稳定性。
4. 实验验证:SOTA 级别的提升
研究团队在仿真和真实环境下进行了 USB、两相、三相插头测试。
表 1:TER-DAgger 与各类基线的成功率对比
关键结论:
- 成功率压制:在复杂的真实三相插头任务中,TER-DAgger 达到了 82% 的成功率,而传统的 ACT 仅有 24%。
- 纠偏效率:消融实验显示,只有同时包含过渡样本、演示样本和后期编辑样本(Post-editing),模型才能习得长期的纠偏意图。
- 柔顺控制:底层采用 1kHz 的笛卡尔阻抗控制,结合高层的力觉感知,使得机器人在接触时具备类似人手的柔韧性。
5. 深度洞察与总结
TER-DAgger 的成功在于它将**底层控制的鲁棒性(Impedance Control)与高层学习的灵活性(Residual DAgger)**完美结合。
它的局限性: 尽管减少了监控负担,但仍需人类进行人工纠偏。未来的研究方向可能在于如何通过自监督的方式,利用已经累积的“力觉经验”自行生成补丁,而无需人类反复介入。
对于正在从事机器人操作学习(Manipulation Learning)的研究者来说,这篇论文提供了一个非常实用的范式:不要试图用视觉解决所有偏移,引入物理特征(力)进行 OOD 检测与残差修正,往往能起到事半功倍的效果。
