$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

[Humanoids 2025] Ψ0：解耦学习助力人形机器人突破复杂长程操作瓶颈

总结

问题

方法

结果

要点

摘要

本文推出了 Ψ0 (Psi-Zero)，一个旨在解决人形机器人复杂全身操作（Loco-Manipulation）的开放基础模型。该模型采用分阶段训练范式，结合 800 小时人类第一视角视频和仅 30 小时机器人数据，在多项长程任务中取得了超越现有 SOTA 模型（如 GR00T, π0.5）40% 以上的成功率。

TL;DR

Ψ0 (Psi-Zero) 是由 USC PSI 实验室等机构发布的一款人形机器人统一基础模型。它通过“先人类视频预训练、后机器人专家微调”的策略，以极高的数据效率（仅 30 小时真机数据）在包括洗碗、倒水、远距离推车等 8 种高难度 Loco-Manipulation 任务上刷新了 SOTA 记录，且全面开源了从遥操作系统到推理引擎的完整生态。

背景定位：数据规模 vs. 数据效率

在具身智能领域，RT-2 和 GR00T 等模型的成功让人产生一种错觉：只要喂给模型足够多的混合机器人数据（Co-training），通用智能就会浮现。然而 Ψ0 团队提出了深刻的质疑：人类和机器人在关节自由度、运动频率和动力学上存在巨大的 Embodiment Gap。强行在同一个 Action Space 下混合训练，不仅收敛慢，而且会导致模型在两种不同的动作分布中“左右为难”。

Ψ0 的核心直觉在于：将知识获取（大脑）与精细控制（小脑）解耦。

痛点深挖

数据稀缺与不匹配：高质量的机器人遥操作数据极其昂贵，而互联网人类视频虽然易得，但无法直接映射到机器人的关节扭矩。
推理延迟（Stop-and-Think）：数十亿参数的 VLA 模型推理通常超过 100ms，导致机器人动作像断片一样，无法实现平滑的实时反馈。
全身协调难：行走、弯腰与精密的手部操作（如转动水龙头）在时空尺度上完全不同，现有模型往往顾此失彼。

核心方法论：分阶段“三部曲”

1. 架构设计：MM-DiT 实力霸榜

Ψ0 采用了 Triple-System 架构：

System-2 (VLM 主干)：基于 Qwen3-VL-2B，负责理解语言指令和高层视觉特征。
System-1 (动作专家)：采用多模态扩散 Transformer (MM-DiT)。不同于普通的 DiT，MM-DiT 对动作（Action）和视言（VL）特征进行双重调制，通过全局注意力机制实现更深度的特征融合。
System-0 (底层控制)：基于强化学习的姿态跟踪器（如 AMO），处理足式平衡等低频信号。

模型架构图

2. 训练配方：从人类动作到机器人关节

预训练 (Human Priors)：在 829 小时人类第一视角视频（EgoDex）上进行，任务简单直接——预测下一个 Action Token。这让 VLM 获得了关于“如何拿杯子”、“如何推门”的常识性视觉表征。
后训练 (Robot Expert)：冻结 VLM，在机器人数据上训练动作专家。这里不学离散 Token，而是用 Rectified Flow 直接生成关节空间的连续 Action Chunk。
微调 (Target Task)：针对具体任务进行少量（约 80 个轨迹）的真机演示微调。

3. 解决震颤：训练时实时分块 (RTC)

为了消除推理延迟导致的动作停顿，Ψ0 在训练时会随机遮蔽掉 Action Chunk 的前几个 Step。这意味着模型被强迫“在跑步时系鞋带”——即根据正在执行的旧动作残影，平滑地生成新动作。

实时分块机制

实验战绩

在 Unitree G1 平台的测试中，Ψ0 表现出惊人的统治力：

多任务全胜：在 8 个长程任务中，平均成功率遥遥领先。特别是在涉及精细指尖操作的“揭盖倒水”任务中，比最近的 GR00T-N1.6 高出 40% 以上。
双臂协作与全身运动：模型不仅学会了手部的复杂交互，还能顺滑地结合身体弯腰和走位。

实验结果对比

深度洞察

Ψ0 的成功给了工业界一个重要启示：** scaling law 并不意味着盲目增加数据总量，而是要 scaling the right data in the right way。** 通过这种分层架构，VLM 充当了“通才”，理解万物；而 MM-DiT 充当了“匠人”，精雕细琢。这种架构不仅降低了对真机数据的依赖，也为未来多模态、大参数人形机器人的落地提供了一个清晰的工程模板。

总结与局限

Ψ0 是目前人形机器人开源社区最具诚意的工作之一。尽管受限于单台 G1 机器人的负重和算力，它仍展示了人形基础模型的巨大潜力。未来如果能结合更大规模的人类视频库（如 Ego-Exo4D），我们或许能看到人形机器人从“能洗碗”进化到“能做饭”的跨越。

发现相似论文

试试这些示例

查找最近其他探讨人类第一视角视频（Egocentric Video）向人形机器人跨具身迁移（Cross-embodiment Transfer）策略的论文。
哪篇论文最早提出了 Flow-based MM-DiT 架构，Ψ0 在哪些具体的调制（Modulation）逻辑上对其进行了针对机器人任务的改进？
针对大参数量行为克隆模型推理延迟导致的停顿问题，除了训练时实时分块（RTC），还有哪些主流的非异步推理优化方案？

[Humanoids 2025] Ψ0：解耦学习助力人形机器人突破复杂长程操作瓶颈

1. TL;DR

2. 背景定位：数据规模 vs. 数据效率

3. 痛点深挖

4. 核心方法论：分阶段“三部曲”

4.1. 1. 架构设计：MM-DiT 实力霸榜

4.2. 2. 训练配方：从人类动作到机器人关节

4.3. 3. 解决震颤：训练时实时分块 (RTC)

5. 实验战绩

6. 深度洞察

7. 总结与局限