本文提出了 X-Loco,一个旨在训练通用型类人机器人视觉运动策略的框架。该框架通过协同策略蒸馏(Synergetic Policy Distillation),将专门负责直立行走、跌倒恢复和全身协调(如箱体攀爬、前滚翻)的三个专家策略整合进单一的视觉学生策略中,在 Unitree G1 机器人上实现了无需参考运动、仅凭速度指令的复杂地形穿越。
TL;DR
X-Loco 成功突破了类人机器人“技能割裂”的局限,通过协同策略蒸馏技术,将直立行走、跌倒恢复和高难度动作(如翻滚、箱体攀爬)集成到了一个单一的视觉策略中。该框架在 Unitree G1 机器人上实现了仅依靠速度指令和深度相机、无需任何参考运动轨迹的自主复杂地形导航。
背景定位:这是首个在单一视觉策略下,同时集成直立运动、全身协调及自动跌倒恢复的类人机器人控制工作,属于 SOTA 性能集成与方法论创新的双重突破。
痛点深挖:为什么“全能”这么难?
目前的类人机器人研究存在明显的“割裂感”:
- 技能孤岛:能平稳走路的模型通常遇到障碍物就倒下,而擅长跌倒恢复的模型往往无法处理视觉障碍。
- 奖励工程复杂:为全身协调动作(如像人一样爬上高箱)设计奖励函数极度耗时,且容易陷入局部最优。
- Sim-to-Real 鸿沟:视觉传感器在模拟器中的渲染效率低且带噪声,直接迁移到现实世界往往会因为感知误差导致系统崩溃。
核心方法论:X-Loco 的三大法宝
作者提出了一个“导师引导下的学徒进化”模式,通过三个特种专家(Oracle Specialists)来训练一个通用的视觉学生。
1. 案例自适应专家选择 (CASS)
系统会根据机器人的头部高度 和环境上下文 实时判断当前属于哪种场景:
- 恢复模式:高度过低时,调用跌倒恢复专家。
- 协调模式:面临高箱或横杆时,调用全身协调专家。
- 普通过渡:日常行走调用直立专家。 这种动态切换保证了学生策略在任何时刻都有最精准的参考坐标。
2. 专家退火采样 (SAR) - 解决“起步难”
对于翻滚或攀爬等高难度动作,完全让机器人盲目探索(Self-exploration)效率极低。SAR 通过设定一个动态比例 ,在训练初期大量使用专家的动作作为 rollouts 数据,随着学生表现变好(Distillation Loss 下降),逐步减少专家介入,让学生学会“自力更生”。
3. 三大专家架构图
图 1:X-Loco 整体框架。左侧为三种专家训练,右侧为通过 CASS 引导的视觉学生蒸馏过程。
实验与战绩:不仅仅是“走两步”
在 IsaacLab 模拟器和真实的 Unitree G1 机器人上,X-Loco 展现了恐怖的鲁棒性:
- 混合地形挑战:机器人从倒地状态开始,先起身,跨越阶梯,随后在横杆下敏捷翻滚,最后爬上 60cm 的高箱。
- 极致抗干扰:在行走过程中给予剧烈踢踹导致倒地,机器人能瞬间感知并切换到恢复模式。
核心性能对比表
表 1:可见在全身协调(WBC)任务中,X-Loco (0.871) 显著优于传统 PPO 和 AHC 算法。
深度洞察:为什么这有效?
X-Loco 的成功本质上是解决了状态分布匹配的问题。通过注入 SFI(随机跌倒注入),模型不仅学会了怎么恢复,还学会了“在快倒下的一瞬间如何过渡到恢复动作”,这在动态控制中被称为 transition dynamics 的内化。
此外,为了解决 Sim-to-Real 的视觉误差,作者在深度图像中注入了高斯噪声并进行了孔洞填充处理,这种对感知端物理特性(Depth Alignment)的精细建模,是其在真实环境中不“穿模”的关键。
局限性与展望
尽管表现强悍,但 X-Loco 仍存在感知视野角(FOV)有限的问题,容易产生感知死角。未来,作者计划引入多模态感知(如 LiDAR + RGB-D)以及强化学习微调,让模型能在专家未覆盖的极端边缘案例中自我进化。
参考文献:X-Loco: Towards Generalist Humanoid Locomotion Control via Synergetic Policy Distillation [arXiv:2511.XXXXX]
