WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICRA 2026] HEX:类人机器人全身协同操纵的“先知”与“统筹者”
总结
问题
方法
结果
要点
摘要

本文提出了 HEX,这是一个专为全尺寸双足机器人设计的全身协同操纵 VLA 框架。通过引入 类人对齐的通用状态表示 和 基于混合专家模型 (MoE) 的统一本体感知预测器,HEX 在处理高自由度协同运动和长程任务方面达到了 SOTA 水平。

TL;DR

北京人形机器人创新中心等机构提出的 HEX (Humanoid-Aligned Experts) 框架,通过引入名为“类人对齐”的通用状态表示和本体感知预测器(UPP),解决了双足机器人在复杂操作中“手脚不协调”的顽疾。它不仅能看懂指令,还能预判自己下一步的表现,实现了长程任务下极高的稳定性和泛化能力。

痛点深挖:为什么类人机器人总是“手脚不协调”?

在具身智能领域,Vision-Language-Action (VLA) 模型虽然在手臂抓取上取得了巨大进步,但面对全尺寸双足机器人时却显得力不从心。

核心矛盾在于:高维度的肢体耦合。对于双足机器人,手臂的一个大幅度动作会直接影响整机重心,需要腿部和腰部实时补偿。而现有的 VLA 模型多将动作预测视为黑盒,缺乏对物理状态演化的显式建模。此外,重复编码历史图像带来的巨大计算开销,使得模型很难在保持长程记忆的同时满足实时控制(Low Latency)的要求。

核心机制:温故而知新

HEX 的核心设计哲学可以概括为:Review (视觉回顾) + Forecast (状态预判)

1. 统一本体感知预测器 (UPP) 与 MoE

HEX 没有直接将一堆原始传感器数据塞进 Transformer,而是将其映射到一套“类人对齐”的槽位(Slots)中,如左/右手、头、腰、腿等。

  • 身体部位解耦:这种 slot-based 表示允许模型在不同硬件(如 Tienkung 2.0 vs 3.0)之间共享特征。
  • 动态路由:利用 Mixture-of-Experts (MoE) 架构,模型可以根据当前是“走动”还是“半蹲扣件”动态选择特定的神经元专家来处理特定部位的动力学。

模型架构图

2. 视觉历史缓存与自适应融合

为了打破“图像序列编码”的计算桎梏,HEX 使用了轻量级的历史 Query Token。它不保存图像,只保存 VLM 对过去场景的语义总结。在生成动作时,Action Expert 会通过残差门控,根据视觉意图和 UPP 预测的未来状态,通过 Flow-matching 生成极其平滑的轨迹。

专家预测与推理流程

实验战绩:全场 SOTA

HEX 在 7 个真实世界的复杂任务中进行了评估,涵盖了从“模仿人类姿势”到“半蹲操作物体”等高难度动作。

  • 长程任务表现:在搬运纸箱的长链条任务中,HEX 显著减少了级联误差。实验显示,在最后的“放置”阶段,HEX 的成功率比最强基线 π0.5 高出 13.3%。
  • 强悍的泛化性:在面对从未见过的动态干扰(如背景有人走动、光照突变)时,HEX 的平均成功率保持在 61.8%,而同期 SOTA 模型多崩溃在 40% 以下。

实验结果对比

深度洞察:专家的背后

研究团队发现,MoE 的路由模式非常有意思:

  1. 静态分配:在 Transformer 层之前,专家分配相对固定,主要负责辨识“这是手”或“这是腿”。
  2. 动态切换:在 Transformer 层之后,专家的选择与任务阶段高度相关。例如,当机器人从站立转为快走时,腿部专家会发生剧烈的切换。这说明 HEX 确实学到了不同运动模态下的物理特性切换。

总结与局限

HEX 证明了显式的状态预测层是通往通用类人控制的关键。尽管它由于模型参数量和双分支结构存在约 73ms 的延迟,但这在 4090 显卡上已达到实时控制的边缘。未来的改进方向可能在于进一步压缩 VLM 部分,或引入更深层的层次化强化学习来处理极具动态挑战的平衡任务。

** takeaway**: 具身智能不仅仅是把“大模型”装进“机器人”,更关键的是如何让模型理解并预测复杂的物理身体。

发现相似论文

试试这些示例

  • 查找其他在类人机器人全身控制中显式集成未来状态预测(Future State Prediction)或世界模型(World Models)的 VLA 论文。
  • 哪篇论文最早在机器人操作中提出了混合专家模型(MoE)处理跨具身(Cross-Embodiment)数据的架构,HEX 在专家分配逻辑上做了哪些改进?
  • 调研流匹配(Flow Matching)在机器人动作生成(Action Generation)中的应用,对比其与扩散模型(Diffusion Policy)在推理延迟和动作平滑度上的优劣。
目录
[ICRA 2026] HEX:类人机器人全身协同操纵的“先知”与“统筹者”
1. TL;DR
2. 痛点深挖:为什么类人机器人总是“手脚不协调”?
3. 核心机制:温故而知新
3.1. 1. 统一本体感知预测器 (UPP) 与 MoE
3.2. 2. 视觉历史缓存与自适应融合
4. 实验战绩:全场 SOTA
5. 深度洞察:专家的背后
6. 总结与局限