本文提出了 HiLAM(Hierarchical Latent Action Model),一种从无动作标签(Actionless)视频中学习长时序潜在技能的分层模型。该方法通过集成动态分块机制(Dynamic Chunking),将低级潜在动作序列聚类为高级技能,在 LIBERO 机器人操控基准测试中显著超越了 SOTA 基线 BAKU。
TL;DR
在机器人学习领域,获取带有动作标签的数据成本极高。HiLAM 提供了一种全新的解法:它无需任何动作标签,通过层级化潜在动作模型,在大规模人类或机器人视频中自动发现长时序定义的“潜在技能”(Latent Skills)。在复杂的 LIBERO 长时序任务中,HiLAM 不仅大幅刷新了 SOTA 成功率,更展现了惊人的数据效率——仅用 10% 的数据即可吊打传统基线。
背景定位:从“四肢发达”到“逻辑缜密”
目前的潜在动作模型(LAM)如 LAPA 或 Genie,本质上是在学习“运动基元”(Primitive Motion),比如“手向左移了 5 厘米”。然而,一个复杂的任务(如:去厨房拿个杯子并接满水)是由多个具有语义逻辑的阶段组成的。
现有的方法往往:
- 视野狭窄:只看相邻几帧,看不出长期的策略。
- 硬性分割:用固定步长(如每 10 帧一个动作)强制划分,但这显然不符合真实动作节奏。
HiLAM 的核心直觉在于:通过数据的动态不相似性来自动感知动作的边界。当视频中的运动模式发生剧烈变化时,模型应该自动意识到这是一个“动作阶段”的结束和下一个“技能”的开始。
核心方法:HiLAM 的两级进化
HiLAM 的工作流程分为两个核心阶段:
1. 自动技能发现 (Skill Discovery)
HiLAM 并非直接处理像素,而是站在“巨人的肩膀上”——它利用预训练的 IDM (Inverse Dynamics Model) 将视频转换成一系列低级潜在动作(Latent Actions)。
- 动态分块(Dynamic Chunking):这是 HiLAM 的灵魂。它借鉴了 H-Net 的思想,通过计算相邻令牌之间的特征差异,预测一个边界概率。如果差异大,就划定一个新的 Chunk。
- 分层压缩:低层负责捕捉微小的动作(如抓取时的手指微动),高层则将这些微动压缩成一个语义令牌(如“抓取”这个动作整体)。
图 1:HiLAM 学习流程。左侧为层级式分块机制,右侧为结合 FDM 的训练目标。
2. 分层策略学习 (Hierarchical Policy)
有了这些自动发现的技能后,训练机器人就变成了“高层指点,底层干活”:
- 高层策略 ():观察环境,决定下一个要执行的“潜在技能”。
- 低层策略 ( ):根据高层技能的指令,输出具体的控制动作。
实验战绩:LIBERO 榜单的全面碾压
研究团队在包含多种复杂任务的 LIBERO 模拟器上进行了测试。
1. 效率之王
在最难的 LIBERO-Long 任务上,HiLAM 展现了极其恐怖的数据增益。如图所示,当专家演示数据非常稀缺(10%)时,传统方法 BAKU 基本处于瘫痪边缘,而 HiLAM 已经能完成近一半的任务。
图 2:在不同数据规模下的性能对比。
2. 可视化:它是真的“懂”分段
通过可视化边界预测(图 3),我们可以清晰地看到 HiLAM 如何自动将一个“取下碗并移动”的任务切分为:1. 接近碗;2. 抓取;3. 搬运。整个过程完全是根据运动特征自发形成的,没有一点人工干预。
图 3:模型自动生成的技能分段,不同颜色代表不同的潜在技能阶段。
深度洞察
HiLAM 的成功揭示了一个重要的趋势:机器人的“通识文化”可以来自人类视频,但这种文化必须是分层的。
- 物理一致性:HiLAM 在训练中加入的前向动力学损失(Lrec)保证了它学到的“技能”不是玄学,而是能真实预测下一帧画面变化的物理实体。
- 灵活性:动态分块意味着它能处理快慢不一的动作。同一个“倒水”动作,慢动作和快动作在 HiLAM 眼中可以被映射到同一个潜在技能空间,这对于跨域、跨个体的模仿至关重要。
局限性与未来
尽管 HiLAM 在模拟环境中表现惊艳,但它目前依赖预训练好的 IDM 模型。作者提出,未来如果能实现端到端的训练(即原始视频输入到技能输出一气呵成),可能会进一步通过“感知-认知”协同优化来提升性能。此外,将这种运动技能发现与语言模型(VLM)结合,将是实现通用家庭机器人的关键一步。
总结 (Takeaway)
HiLAM 证明了时间序列的异质性是无监督学习技能边界的黄金准则。它让我们离“给机器人看一段视频就能学会复杂任务”的愿景又近了一大步。
