HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

[ICRA 2026] HEX：类人机器人全身协同操纵的“先知”与“统筹者”

总结

问题

方法

结果

要点

摘要

本文提出了 HEX，这是一个专为全尺寸双足机器人设计的全身协同操纵 VLA 框架。通过引入类人对齐的通用状态表示和基于混合专家模型 (MoE) 的统一本体感知预测器，HEX 在处理高自由度协同运动和长程任务方面达到了 SOTA 水平。

TL;DR

北京人形机器人创新中心等机构提出的 HEX (Humanoid-Aligned Experts) 框架，通过引入名为“类人对齐”的通用状态表示和本体感知预测器（UPP），解决了双足机器人在复杂操作中“手脚不协调”的顽疾。它不仅能看懂指令，还能预判自己下一步的表现，实现了长程任务下极高的稳定性和泛化能力。

痛点深挖：为什么类人机器人总是“手脚不协调”？

在具身智能领域，Vision-Language-Action (VLA) 模型虽然在手臂抓取上取得了巨大进步，但面对全尺寸双足机器人时却显得力不从心。

核心矛盾在于：高维度的肢体耦合。对于双足机器人，手臂的一个大幅度动作会直接影响整机重心，需要腿部和腰部实时补偿。而现有的 VLA 模型多将动作预测视为黑盒，缺乏对物理状态演化的显式建模。此外，重复编码历史图像带来的巨大计算开销，使得模型很难在保持长程记忆的同时满足实时控制（Low Latency）的要求。

核心机制：温故而知新

HEX 的核心设计哲学可以概括为：Review (视觉回顾) + Forecast (状态预判)。

1. 统一本体感知预测器 (UPP) 与 MoE

HEX 没有直接将一堆原始传感器数据塞进 Transformer，而是将其映射到一套“类人对齐”的槽位（Slots）中，如左/右手、头、腰、腿等。

身体部位解耦：这种 slot-based 表示允许模型在不同硬件（如 Tienkung 2.0 vs 3.0）之间共享特征。
动态路由：利用 Mixture-of-Experts (MoE) 架构，模型可以根据当前是“走动”还是“半蹲扣件”动态选择特定的神经元专家来处理特定部位的动力学。

模型架构图

2. 视觉历史缓存与自适应融合

为了打破“图像序列编码”的计算桎梏，HEX 使用了轻量级的历史 Query Token。它不保存图像，只保存 VLM 对过去场景的语义总结。在生成动作时，Action Expert 会通过残差门控，根据视觉意图和 UPP 预测的未来状态，通过 Flow-matching 生成极其平滑的轨迹。

专家预测与推理流程

实验战绩：全场 SOTA

HEX 在 7 个真实世界的复杂任务中进行了评估，涵盖了从“模仿人类姿势”到“半蹲操作物体”等高难度动作。

长程任务表现：在搬运纸箱的长链条任务中，HEX 显著减少了级联误差。实验显示，在最后的“放置”阶段，HEX 的成功率比最强基线 π0.5 高出 13.3%。
强悍的泛化性：在面对从未见过的动态干扰（如背景有人走动、光照突变）时，HEX 的平均成功率保持在 61.8%，而同期 SOTA 模型多崩溃在 40% 以下。

实验结果对比

深度洞察：专家的背后

研究团队发现，MoE 的路由模式非常有意思：

静态分配：在 Transformer 层之前，专家分配相对固定，主要负责辨识“这是手”或“这是腿”。
动态切换：在 Transformer 层之后，专家的选择与任务阶段高度相关。例如，当机器人从站立转为快走时，腿部专家会发生剧烈的切换。这说明 HEX 确实学到了不同运动模态下的物理特性切换。

总结与局限

HEX 证明了显式的状态预测层是通往通用类人控制的关键。尽管它由于模型参数量和双分支结构存在约 73ms 的延迟，但这在 4090 显卡上已达到实时控制的边缘。未来的改进方向可能在于进一步压缩 VLM 部分，或引入更深层的层次化强化学习来处理极具动态挑战的平衡任务。

** takeaway**: 具身智能不仅仅是把“大模型”装进“机器人”，更关键的是如何让模型理解并预测复杂的物理身体。

发现相似论文

试试这些示例

查找其他在类人机器人全身控制中显式集成未来状态预测（Future State Prediction）或世界模型（World Models）的 VLA 论文。
哪篇论文最早在机器人操作中提出了混合专家模型（MoE）处理跨具身（Cross-Embodiment）数据的架构，HEX 在专家分配逻辑上做了哪些改进？
调研流匹配（Flow Matching）在机器人动作生成（Action Generation）中的应用，对比其与扩散模型（Diffusion Policy）在推理延迟和动作平滑度上的优劣。

[ICRA 2026] HEX：类人机器人全身协同操纵的“先知”与“统筹者”

1. TL;DR

2. 痛点深挖：为什么类人机器人总是“手脚不协调”？

3. 核心机制：温故而知新

3.1. 1. 统一本体感知预测器 (UPP) 与 MoE

3.2. 2. 视觉历史缓存与自适应融合

4. 实验战绩：全场 SOTA

5. 深度洞察：专家的背后

6. 总结与局限