本文推出了 Ψ0 (Psi-Zero),一个旨在解决人形机器人复杂全身操作(Loco-Manipulation)的开放基础模型。该模型采用分阶段训练范式,结合 800 小时人类第一视角视频和仅 30 小时机器人数据,在多项长程任务中取得了超越现有 SOTA 模型(如 GR00T, π0.5)40% 以上的成功率。
TL;DR
Ψ0 (Psi-Zero) 是由 USC PSI 实验室等机构发布的一款人形机器人统一基础模型。它通过“先人类视频预训练、后机器人专家微调”的策略,以极高的数据效率(仅 30 小时真机数据)在包括洗碗、倒水、远距离推车等 8 种高难度 Loco-Manipulation 任务上刷新了 SOTA 记录,且全面开源了从遥操作系统到推理引擎的完整生态。
背景定位:数据规模 vs. 数据效率
在具身智能领域,RT-2 和 GR00T 等模型的成功让人产生一种错觉:只要喂给模型足够多的混合机器人数据(Co-training),通用智能就会浮现。然而 Ψ0 团队提出了深刻的质疑:人类和机器人在关节自由度、运动频率和动力学上存在巨大的 Embodiment Gap。强行在同一个 Action Space 下混合训练,不仅收敛慢,而且会导致模型在两种不同的动作分布中“左右为难”。
Ψ0 的核心直觉在于:将知识获取(大脑)与精细控制(小脑)解耦。
痛点深挖
- 数据稀缺与不匹配:高质量的机器人遥操作数据极其昂贵,而互联网人类视频虽然易得,但无法直接映射到机器人的关节扭矩。
- 推理延迟(Stop-and-Think):数十亿参数的 VLA 模型推理通常超过 100ms,导致机器人动作像断片一样,无法实现平滑的实时反馈。
- 全身协调难:行走、弯腰与精密的手部操作(如转动水龙头)在时空尺度上完全不同,现有模型往往顾此失彼。
核心方法论:分阶段“三部曲”
1. 架构设计:MM-DiT 实力霸榜
Ψ0 采用了 Triple-System 架构:
- System-2 (VLM 主干):基于 Qwen3-VL-2B,负责理解语言指令和高层视觉特征。
- System-1 (动作专家):采用多模态扩散 Transformer (MM-DiT)。不同于普通的 DiT,MM-DiT 对动作(Action)和视言(VL)特征进行双重调制,通过全局注意力机制实现更深度的特征融合。
- System-0 (底层控制):基于强化学习的姿态跟踪器(如 AMO),处理足式平衡等低频信号。

2. 训练配方:从人类动作到机器人关节
- 预训练 (Human Priors):在 829 小时人类第一视角视频(EgoDex)上进行,任务简单直接——预测下一个 Action Token。这让 VLM 获得了关于“如何拿杯子”、“如何推门”的常识性视觉表征。
- 后训练 (Robot Expert):冻结 VLM,在机器人数据上训练动作专家。这里不学离散 Token,而是用 Rectified Flow 直接生成关节空间的连续 Action Chunk。
- 微调 (Target Task):针对具体任务进行少量(约 80 个轨迹)的真机演示微调。
3. 解决震颤:训练时实时分块 (RTC)
为了消除推理延迟导致的动作停顿,Ψ0 在训练时会随机遮蔽掉 Action Chunk 的前几个 Step。这意味着模型被强迫“在跑步时系鞋带”——即根据正在执行的旧动作残影,平滑地生成新动作。

实验战绩
在 Unitree G1 平台的测试中,Ψ0 表现出惊人的统治力:
- 多任务全胜:在 8 个长程任务中,平均成功率遥遥领先。特别是在涉及精细指尖操作的“揭盖倒水”任务中,比最近的 GR00T-N1.6 高出 40% 以上。
- 双臂协作与全身运动:模型不仅学会了手部的复杂交互,还能顺滑地结合身体弯腰和走位。

深度洞察
Ψ0 的成功给了工业界一个重要启示:** scaling law 并不意味着盲目增加数据总量,而是要 scaling the right data in the right way。** 通过这种分层架构,VLM 充当了“通才”,理解万物;而 MM-DiT 充当了“匠人”,精雕细琢。这种架构不仅降低了对真机数据的依赖,也为未来多模态、大参数人形机器人的落地提供了一个清晰的工程模板。
总结与局限
Ψ0 是目前人形机器人开源社区最具诚意的工作之一。尽管受限于单台 G1 机器人的负重和算力,它仍展示了人形基础模型的巨大潜力。未来如果能结合更大规模的人类视频库(如 Ego-Exo4D),我们或许能看到人形机器人从“能洗碗”进化到“能做饭”的跨越。
