RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids

[CVPR 2026] RoboForge：打破重定向枷锁，让类人机器人从文本直达物理运动

总结

问题

方法

结果

要点

摘要

本文提出了 RoboForge，一个端到端的类人机器人全身运动控制框架，通过 Physical Plausibility Optimization (PP-Opt) 模块实现了文本到运动潜空间（Latent Space）的物理优化生成与控制。在 Unitree G1 机器人上验证了其无需显式重定向（Retarget-free）即可实现高稳定性、低跟踪误差的复杂运动逻辑。

TL;DR

在类人机器人领域，让机器人听懂指令并“优雅地动起来”一直面临物理可行性的天堑。南洋理工等团队提出的 RoboForge 放弃了传统的“生成后重定向”模式，转而构建了一个潜空间驱动的闭环优化体系。通过引入 PP-Opt 模块，该框架不仅能消除足部滑动、地面穿透等物理违和感，更在 Unitree G1 机器人上实现了 SOTA 级别的全身运动跟踪性能。

背景定位：由于物理缺失导致的“幻觉”运动

目前的扩散模型（Diffusion Models）生成的动作在视频里看起来很美，但如果直接灌给机器人，机器人会立刻因为重心不稳或接触逻辑错误而倒下。核心矛盾在于：

Retargeting 损耗：从人类 MoCap 数据到机器人关节空间的映射会产生误差累积。
接触动力学不连续：视觉模型倾向于平滑轨迹，而物理世界需要离散、精准的冲量交换。

核心机制：PP-Opt 双向桥接模块

RoboForge 的卓越之处在于它不把“生成”和“控制”看作孤立的两个步骤，而是通过 PP-Opt (Physical Plausibility Optimization) 建立了一个自进化的循环。

1. 正向：物理感知的策略细化

系统利用物理仿真器作为“教练”，对跟踪策略（Tracker）进行强化学习。它通过以下三个特定的物理惩罚项来纠正动作：

Skating (足部滑动)：惩罚支撑足与地面的相对位移。
Floating (悬空)：惩罚预定接触点未落地的行为。
Penetration (地面穿透)：严禁肢体进入地面几何体。

2. 反向：潜空间数据回流 (Backward Fine-tune)

这是本文最具启发性的设计。系统将仿真器中运行成功的、经过物理矫正的动作数据提取出来，反向微调（Fine-tune）前端的运动生成器（Motion Generator）。这意味着生成器在不断进化的过程中，会学会只在物理可行的潜空间区域内进行采样。

模型架构图 图 1：RoboForge 全栈架构图，展示了从文本编码到物理仿真的双向链路。

实验战绩：精度与稳定性的双重飞跃

物理指标的质变

在对 MLD 模型进行 PP-Opt 优化后，实验数据显示出了惊人的改进：

地面穿透率：从初始的 0.042 直接降至 0。
FID (分布相似度)：从 0.484 降至 0.454，证明优化后的动作更接近真实物理分布。
跟踪成功率：在 MuJoCo 环境中提升了 8 个百分点。

实验结果对比 表 1：运动生成质量与物理指标对比，PP-Opt 在保持多样性的同时大幅降低了错误率。

隐式潜空间驱动 vs 显式重定向

RoboForge 采用的 Implicit Latent-driven 方案彻底干掉了中间的重定向步骤。对比实验显示，这种方案在跟踪误差（Empjpe）上不到传统方案（Ours-Explicit）的一半，尤其在接触转换剧烈的动作中表现稳健。

图 2：Unitree G1 机器人执行复杂指令：武术踢腿、标枪投掷、下蹲避让。

总结与洞察：走向“可部署”的具身智能

RoboForge 的成功证明了：

闭环胜过开环：单纯依靠海量数据训练的生成模型无法自发产生物理约束，必须引入仿真反馈。
潜空间是关键：直接在 Latent 层面进行控制（而非显式关节角）能赋予策略更高的容错率。

局限性：目前该框架主要针对平坦地面。对于复杂非结构地形（阶梯、碎石），如何实时更新潜空间的物理边界将是下一个研究高地。

Takeaway：未来的机器人将不再是“笨拙的模仿者”，而是具备物理直觉的“思考者”。RoboForge 迈出了坚实的一步。

发现相似论文

试试这些示例

查找最近一年内其他采用 Latent-driven 方案替代传统 Robot Retargeting 的类人机器人控制论文。
哪篇论文最早在扩散模型中引入了物理约束（Physics-guided Diffusion），本文的 PP-Opt 与之相比在反馈机制上有何改进？
目前有哪些研究正在将 RoboForge 式的物理优化框架应用到类人机器人的双臂协同操纵或复杂地形适应任务中？

[CVPR 2026] RoboForge：打破重定向枷锁，让类人机器人从文本直达物理运动

1. TL;DR

2. 背景定位：由于物理缺失导致的“幻觉”运动

3. 核心机制：PP-Opt 双向桥接模块

3.1. 1. 正向：物理感知的策略细化

3.2. 2. 反向：潜空间数据回流 (Backward Fine-tune)

4. 实验战绩：精度与稳定性的双重飞跃

4.1. 物理指标的质变

4.2. 隐式潜空间驱动 vs 显式重定向

5. 总结与洞察：走向“可部署”的具身智能