HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

[Tencent Robotics] HY-Embodied-0.5：将大模型的“数字大脑”转化为物理世界的“具身智能”

总结

问题

方法

结果

要点

摘要

本文推出了 HY-Embodied-0.5，一系列专为真实室内具身智能体设计的视觉语言基础模型（VLM）。该系列包含 2B 参数的边缘端高效模型 MoT-2B 和 32B 参数的复杂推理模型 MoE-A32B，在 22 个空间与具身测评基准中展现了 SOTA 性能，并成功应用于真实机械臂控制任务。

TL;DR

腾讯 Robotics X 与 HY Vision 团队联合发布了 HY-Embodied-0.5 系列模型。通过创新的 Mixture-of-Transformers (MoT) 架构和深度强化学习（RL）演化，该模型在空间感知、轨迹预测及多步规划上实现了突破性提升。2B 版本的微型模型在具身测评中甚至超越了 4B 以上的大型通用模型，并已在真实机械臂操作中得到了验证。

背景定位：通用 VLM 难以走入物理世界？

尽管当前的 GPT-4o 或 Qwen 系列在看图说话、写代码方面极强，但它们在现实物理环境中往往表现得像个“深度近视”和“行动障碍者”：

细粒度感知缺失：无法精准判断物体间的厘米级距离。
逻辑断层：知道“要把苹果放进篮子”，但不知道机械臂应该走哪条空间轨迹（Trajectory）。

HY-Embodied-0.5 的出现，正是为了填补从数字理解到物理动作之间的鸿沟。

核心架构：Mixture-of-Transformers (MoT) 与 Latent Tokens

为了让 2B 规模的小模型也能承载复杂的空间推理，作者在架构上动了“大手术”：

1. 模态自适应计算 (MoT)

作者没有采用传统的全参数共享，而是引入了 Mixture-of-Transformers。简单来说，为视觉和文本分配了非共享的参数分支（QKV 和 FFN）。

直觉：重度的视觉训练往往会导致语言能力的退化（Catastrophic Forgetting）。MoT 允许模型针对视觉模态进行专门优化，而不破坏语言基座。

2. 视觉潜代币 (Visual Latent Tokens)

受“思维链”启发，作者在视觉输入序列末尾添加了可学习的 Latent Tokens。

作用：这些 Token 充当了视觉全注意力和语言因果注意力之间的“桥梁”，能够捕捉 Salient Objects 的精细特征。

模型架构图 图 2: HY-Embodied-0.5 的 MoT 架构，展示了模态特定的处理流程。

训练范式：从大规模预训练到“深度思考”

论文的亮点之一在于其 Post-training 流水线：

冷启动 SFT：构建 100k 高质量的 Chain-of-Thought (CoT) 数据。
强化学习 (RL)：使用 GRPO 算法。最关键的是任务感知奖励设计 (Task-aware Reward)。对于坐标输出，使用 IoU 奖励；对于动作序列，使用带有惩罚项的轨迹奖励。
迭代自进化 (RFT)：通过大模型作为 Teacher 来筛选高质量的推理路径，让模型不仅“答对”，还要“想对”。
大到小的 On-policy 蒸馏：让 2B 学生模型在自己生成的错误路径上，接受 32B 老师模型的即时纠偏，大幅提升了小模型的推理鲁棒性。

实验结果：边缘侧的性能怪兽

在包含 22 个基准的任务套件中，HY-Embodied-0.5 拿下了惊人的战绩：

MoT-2B：在 16/22 个榜单中排名第一。在空间理解（Spatial Understanding）领域，其表现远超 Qwen3-VL-2B 和 RoboBrain 2.5。
MoE-A32B：平均成绩达到 67.0%，在同级别对抗中击败了 Gemini 3.0 Pro。

实验结果对比 表 1: MoT-2B 与各大主流具身/通用 VLM 的性能对比。

真实世界验证：机械臂的“精密操作”

在“挂杯子”（Mug Hanging）这一极具挑战性的任务中，HY-Embodied-0.5 的成功率达到了 75%。这是一个非常硬核的指标，因为该任务不仅需要识别钩子，还需要精确控制末端执行器的空间路径。

真实环境演示 图 1: 视觉感知与真实机器人控制任务的效果展示。

深度洞察：为什么这篇论文重要？

HY-Embodied-0.5 的成功不仅仅是因为数据量大，更在于它将“推理”与“空间几何”完成了深度解耦与对齐。通过 <think> 标签，我们能清晰地看到模型如何分析背景、估算距离。

局限性分析：尽管模型在模拟和受控真实环境中表现出色，但在处理动态、高速移动的物体或极端光照条件下的感知表现仍有待进一步观察。此外，当前的 VLA 模型主要针对具体的运动控制，尚未实现跨异构物理实体的通用化。

总结

HY-Embodied-0.5 证明了通过 Mixture-of-Transformers 架构与迭代式 Post-training 策略，即便是轻量级的模型也能拥有顶级的物理常识推理能力。这为未来在机器人、无人机等算力受限平台上部署真正的“具身大脑”扫清了障碍。

发现相似论文

试试这些示例

查找最近其他使用 Mixture-of-Transformers (MoT) 架构来平衡多模态模型中视觉与语言性能退化的相关论文。
哪篇论文最早提出了 Group-Relative Policy Optimization (GRPO) 算法，HY-Embodied-0.5 在奖励函数设计上对其做了哪些针对具身任务的改进？
调研当前学术界将基础模型蒸馏到边缘侧具身智能体（如 2B 规模）时常用的 On-policy Distillation 方案及其对推理链一致性的影响。

[Tencent Robotics] HY-Embodied-0.5：将大模型的“数字大脑”转化为物理世界的“具身智能”

1. TL;DR

2. 背景定位：通用 VLM 难以走入物理世界？

3. 核心架构：Mixture-of-Transformers (MoT) 与 Latent Tokens

3.1. 1. 模态自适应计算 (MoT)

3.2. 2. 视觉潜代币 (Visual Latent Tokens)

4. 训练范式：从大规模预训练到“深度思考”

5. 实验结果：边缘侧的性能怪兽

6. 真实世界验证：机械臂的“精密操作”

7. 深度洞察：为什么这篇论文重要？

8. 总结