决定机器人能否从人类示范中有效学习的因素是什么?
最核心的因素在于示范本身的质量与效率。2021年的一项研究表明,通过智能筛选最具信息量的示范并剔除冗余内容,机器人学习拾取与放置任务的成功率可达85%,同时所需示范次数相比标准方法减少60%[11]。这意味着示范并非越多越好——关键在于每次示范都能提供新的、有价值的信息。
人类演示的方式同样至关重要。2023年的一项研究表明,为人类演示者提供力反馈(使其能感受到指尖和手掌的力)后,演示动作执行更快,且力的变化幅度更小。当机器人被训练模仿这些“沉浸式”演示时,其表现更佳——尽管训练过程中并未向机器人展示力数据[7]。这表明,让演示体验对人类而言更逼真,能直接提升机器人的学习效果。
然而,机器人在学习过程中的自身表现可能会破坏这一进程。2021年的一项研究发现,当机器人在示范学习中未能完成任务时,人类教师对机器人的信任度显著降低(p < .001,具有统计学意义),对自身信任度也下降(p = .004),并且认为他人对自己的信任度同样降低(p < .001)[1]。这种信任的削弱可能使人类更不愿意继续教学,从而形成负面循环。
机器人能否真正学习复杂任务并泛化到新场景?
是的,但需注意重要前提。一项具有里程碑意义的2022年研究通过模仿学习训练机器人完成100多项不同任务,结果发现它能够执行24项从未见过的操作任务,平均成功率达44%——且这些新任务并未提供任何机器人演示[6]。尽管44%远非完美,但这表明机器人能够泛化至从未被明确教授的新任务,这是迈向实际应用的关键一步。
对于像倒饮料这类高度复杂、多步骤的任务,2021年的一项研究提出了一种可解释的分层模仿学习方法,使机器人能够学习高层级通用知识,并在多种倒饮料场景中执行低层级动作。该方法在成功率、适应性以及解释自身决策的能力方面均优于标准行为克隆方法[10]。类似地,2025年的一项研究通过使用约束优化方法,将人类动作捕捉数据映射到机器人轨迹,成功教会了一台双臂机器人执行复杂的美式手语触觉手势[2]。
在协作任务中,机器人可以学习预测人类行为并主动提供协助。2022年的一项研究通过示范学习,使机器人能够理解任务描述并预测人类同事在装配任务中的下一步动作,从而实现了更流畅的协作,并缩短了空闲时间[9]。另一项2023年提出的框架则让机器人仅通过一次人类示范就能学习协作技能,并基于人类偏好与人体工学反馈在线调整自身动作[3]。
主要局限与挑战是什么?
最大的挑战在于,模仿学习并非一种即插即用的解决方案。许多方法需要精细调参,且仍难以应对任务中的不确定性。2023年一项关于机器人装配任务的研究指出,现有的编程演示方法存在数据采集成本高、鲁棒性低的问题,并提出了将演示与强化学习相结合的混合方法来解决这些问题[4]。这种混合策略——先利用演示启动学习,再让机器人通过试错进行优化——是多数成功系统中反复出现的核心思路[8][5]。
另一个局限是“黑箱”问题:许多模仿学习方法无法解释机器人为何做出特定决策。2021年的倒饮料研究通过逻辑图使决策过程可解释,从而解决了这一问题,使用户能够追溯失败的原因[10]。缺乏这种可解释性,人类将难以信任和调试机器人的行为。
最后,机器人的物理形态也很重要。2021年的一项研究发现,教学方式会影响人类教师的自我感受:动作捕捉被认为比远程操作更轻松,而运动示教(即物理引导机器人)则让教师对自身的评价最低[1]。这意味着人机交互界面并非中立——它实际上会积极影响教学与学习的质量。
本文引用的文献
机器人表现对人类教师在示范学习任务中的影响
当机器人在示范学习中失败时,人类教师对机器人的信任度降低(p < .001),对自身信任度降低(p = .004),并认为他人对自己的信任度也降低(p < .001)。
关于通过双臂机器人平台执行复杂触觉美式手语任务的人机技能迁移研究
通过使用约束优化将人类动作捕捉数据映射到机器人轨迹,一台双臂机器人成功执行了复杂的美式手语触觉手势。
基于示教学习的人机协作人机交互框架
一种结合一次性人类示范与黎曼动态运动基元的框架,使机器人能够学习协作技能,并在线适应人类的人体工学偏好。
从人类示范中学习机器人插入任务
一种面向机器人装配任务的新型编程演示框架,用低成本RGBD摄像头替代了昂贵的动作捕捉系统,并采用潜在技能引导的强化学习实现鲁棒的技能迁移。
面向机器人操作任务的混合模仿学习框架
一种结合行为克隆与状态克隆的混合模仿学习框架,其性能提升约为纯行为克隆的2.6倍,训练速度约为纯状态克隆的4倍。
BC-Z:基于机器人模仿学习的零样本任务泛化
一个通过模仿学习训练、掌握超过100种不同任务的机器人,能够在没有任何针对新任务的机器人演示的情况下,以平均44%的成功率完成24项从未见过的操作任务。
沉浸式示范是模仿学习的关键
为人类演示者提供力反馈,使其能够更快地完成演示动作,且力的变化幅度更小;而通过模仿这些轨迹训练的机器人,即便没有力数据,其表现也更优。
通过探索高效深度强化学习,结合先验演示解决机器人任务。
一种结合演示的高效探索深度强化学习框架成功学习了铲斗装载和抽屉开启任务,并在真实轮式装载机上实现了从仿真到现实的部署。
基于预测的人机协作装配任务方法:采用示教学习模型
基于预测的人机协作模型利用示教学习技术,使机器人能够预测人类行为并提供主动协助,从而实现更流畅的协作并缩短空闲时间。
可解释的分层模仿学习在机器人倒酒中的应用
一种可解释的分层模仿学习方法在机器人倒水任务中,在成功率、适应性和可解释性方面均优于标准行为克隆方法。
提升目标导向机器人技能学习中人类示教效率的框架
一种目标导向的机器人技能学习框架在拾取与放置任务中实现了85%的成功率,同时相比标准方法将所需示范次数减少了60%。
