Hierarchical Latent Action Model

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Hierarchical Latent Action Model

[CVPR 2026 预研] HiLAM：突破短时序局限，从无标签视频中自动“炼金”高级机器人技能

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 HiLAM（Hierarchical Latent Action Model），一种从无动作标签（Actionless）视频中学习长时序潜在技能的分层模型。该方法通过集成动态分块机制（Dynamic Chunking），将低级潜在动作序列聚类为高级技能，在 LIBERO 机器人操控基准测试中显著超越了 SOTA 基线 BAKU。

TL;DR

在机器人学习领域，获取带有动作标签的数据成本极高。HiLAM 提供了一种全新的解法：它无需任何动作标签，通过层级化潜在动作模型，在大规模人类或机器人视频中自动发现长时序定义的“潜在技能”（Latent Skills）。在复杂的 LIBERO 长时序任务中，HiLAM 不仅大幅刷新了 SOTA 成功率，更展现了惊人的数据效率——仅用 10% 的数据即可吊打传统基线。

背景定位：从“四肢发达”到“逻辑缜密”

目前的潜在动作模型（LAM）如 LAPA 或 Genie，本质上是在学习“运动基元”（Primitive Motion），比如“手向左移了 5 厘米”。然而，一个复杂的任务（如：去厨房拿个杯子并接满水）是由多个具有语义逻辑的阶段组成的。

现有的方法往往：

视野狭窄：只看相邻几帧，看不出长期的策略。
硬性分割：用固定步长（如每 10 帧一个动作）强制划分，但这显然不符合真实动作节奏。

HiLAM 的核心直觉在于：通过数据的动态不相似性来自动感知动作的边界。当视频中的运动模式发生剧烈变化时，模型应该自动意识到这是一个“动作阶段”的结束和下一个“技能”的开始。

核心方法：HiLAM 的两级进化

HiLAM 的工作流程分为两个核心阶段：

1. 自动技能发现 (Skill Discovery)

HiLAM 并非直接处理像素，而是站在“巨人的肩膀上”——它利用预训练的 IDM (Inverse Dynamics Model) 将视频转换成一系列低级潜在动作（Latent Actions）。

动态分块（Dynamic Chunking）：这是 HiLAM 的灵魂。它借鉴了 H-Net 的思想，通过计算相邻令牌之间的特征差异，预测一个边界概率。如果差异大，就划定一个新的 Chunk。
分层压缩：低层负责捕捉微小的动作（如抓取时的手指微动），高层则将这些微动压缩成一个语义令牌（如“抓取”这个动作整体）。

HiLAM 总体架构 图 1：HiLAM 学习流程。左侧为层级式分块机制，右侧为结合 FDM 的训练目标。

2. 分层策略学习 (Hierarchical Policy)

有了这些自动发现的技能后，训练机器人就变成了“高层指点，底层干活”：

高层策略 ( $π_{h}$ )：观察环境，决定下一个要执行的“潜在技能”。
低层策略 ( $π_{l}$ )：根据高层技能的指令，输出具体的控制动作。

实验战绩：LIBERO 榜单的全面碾压

研究团队在包含多种复杂任务的 LIBERO 模拟器上进行了测试。

1. 效率之王

在最难的 LIBERO-Long 任务上，HiLAM 展现了极其恐怖的数据增益。如图所示，当专家演示数据非常稀缺（10%）时，传统方法 BAKU 基本处于瘫痪边缘，而 HiLAM 已经能完成近一半的任务。实验结果对比 图 2：在不同数据规模下的性能对比。

2. 可视化：它是真的“懂”分段

通过可视化边界预测（图 3），我们可以清晰地看到 HiLAM 如何自动将一个“取下碗并移动”的任务切分为：1. 接近碗；2. 抓取；3. 搬运。整个过程完全是根据运动特征自发形成的，没有一点人工干预。

技能边界预测可视化 图 3：模型自动生成的技能分段，不同颜色代表不同的潜在技能阶段。

深度洞察

HiLAM 的成功揭示了一个重要的趋势：机器人的“通识文化”可以来自人类视频，但这种文化必须是分层的。

物理一致性：HiLAM 在训练中加入的前向动力学损失（Lrec）保证了它学到的“技能”不是玄学，而是能真实预测下一帧画面变化的物理实体。
灵活性：动态分块意味着它能处理快慢不一的动作。同一个“倒水”动作，慢动作和快动作在 HiLAM 眼中可以被映射到同一个潜在技能空间，这对于跨域、跨个体的模仿至关重要。

局限性与未来

尽管 HiLAM 在模拟环境中表现惊艳，但它目前依赖预训练好的 IDM 模型。作者提出，未来如果能实现端到端的训练（即原始视频输入到技能输出一气呵成），可能会进一步通过“感知-认知”协同优化来提升性能。此外，将这种运动技能发现与语言模型（VLM）结合，将是实现通用家庭机器人的关键一步。

总结 (Takeaway)

HiLAM 证明了时间序列的异质性是无监督学习技能边界的黄金准则。它让我们离“给机器人看一段视频就能学会复杂任务”的愿景又近了一大步。

Find Similar Papers

Try Our Examples

查找最近其他结合动态分块机制（Dynamic Chunking）或层级化结构的潜在动作模型（Latent Action Models）研究。
哪篇论文最早提出了 H-Net 架构，本文在处理视频动力学时对其动态边界预测算法做了哪些适配性改进？
有哪些研究探讨了将 HiLAM 提取的潜在技能与大语言模型（LLM/VLM）结合，以实现自然语言引导的复杂长时序任务规划？

Contents

[CVPR 2026 预研] HiLAM：突破短时序局限，从无标签视频中自动“炼金”高级机器人技能

1. TL;DR

2. 背景定位：从“四肢发达”到“逻辑缜密”

3. 核心方法：HiLAM 的两级进化

3.1. 1. 自动技能发现 (Skill Discovery)

3.2. 2. 分层策略学习 (Hierarchical Policy)

4. 实验战绩：LIBERO 榜单的全面碾压

4.1. 1. 效率之王

4.2. 2. 可视化：它是真的“懂”分段

5. 深度洞察

6. 局限性与未来

6.1. 总结 (Takeaway)