LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

[CVPR 2026] LaMP：赋予 VLA 3D 运动直觉，重定义机器人操纵的物理基石

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 LaMP，一个双专家 Vision-Language-Action (VLA) 框架，通过引入稠密 3D 场景流（Scene Flow）作为潜在运动先验，显著增强了机器人的操纵能力。该方法在 LIBERO 和 SimplerEnv 等多个基准测试中刷新了 SOTA 记录，尤其在长程任务和 OOD 鲁棒性上表现优异。

TL;DR

传统的 Vision-Language-Action (VLA) 模型往往像是在“看图说话”，试图直接从 2D 像素跳跃到控制指令。LaMP (Latent Motion Prior) 引入了一个革命性的中间层：稠密 3D 场景流。通过让模型先预见物体将如何移动，再决定如何操作，LaMP 在 LIBERO 全套基准测试和真实世界复杂任务（如折叠毛巾、制作早餐）中表现出了跨代级的稳定性，尤其在处理位置偏移和相机变动等 OOD 场景时，鲁棒性提升了近 10%。

背景定位

目前大火的 VLA 模型（如 OpenVLA, π0）虽然具备极强的语义理解能力，但在物理世界的“几何直觉”上却不尽如人意。它们在面对需要精准深度感知和触觉反馈的任务时，常因缺乏 3D 建模而导致动作崩坏。LaMP 的出现，标志着 VLA 从单纯的语义回归向“语义+几何预测”双驱动演进。

痛点深挖：2D 语义与 3D 物理的断层

人类在移动物体前，大脑会隐式地生成世界模型：物体朝哪动？哪里会发生接触？现有的 VLA 往往错在：

维度缺失：纯 2D 视觉特征在处理 tight-clearance（窄间隙）任务时无法提供深度信息。
隐式学习困难：仅靠动作标签（Action Labels）反向推理 3D 动力学，效率低且容易因环境扰动而失效。
计算冗余：如果要生成完整的视频或多步未来点云，计算延迟会让机器人推理变得极其缓慢。

核心方法：Motion Expert 与门控运动导引

LaMP 提出了一个优雅的双专家架构，将“运动先验”与“动作执行”解耦：

1. Motion Expert (运动专家)

它不是在预测像素，而是在预测一个 $K imes T imes 3$ 的 3D 位移网格 $(\Delta u, \Delta v, \Delta d)$。该专家基于 Conditional Flow Matching 训练，能够捕捉物体在三维空间中的连续位移。

2. 一步去噪策略 (One-step Denoising)

这是 LaMP 推理效率的关键。模型不需要像普通的扩散模型那样迭代 50 步来生成完美的运动图，而是只运行 1 个去噪步 并提取其特征。这些隐状态 zm 已经包含了足够的任务相关动力学信息。

3. Gated Cross-Attention (门控交叉注意力)

为了保护 VLM 预训练的语义知识不被几何噪声冲淡，作者设计了一个学到的“闸门” $g$。初始时闸门接近关闭，通过训练，模型自主决定在哪些需要空间精度的时刻（如抓取的瞬间）引入 3D 几何特征。

模型架构图 图 1：LaMP 整体流程：(a) 运动预训练，(b) 动作后训练，(c) 数据固化。

实验战绩：全线突破

SOTA 对比

在 LIBERO 仿真环境中，LaMP 几乎在所有子项中都处于领先地位。特别是在 LIBERO-Long (长程任务) 中，它的表现远超 π0.5 和 GR00T。这证明了拥有“运动预见性”能有效减少长链条动作中的误差积累（Compounding Errors）。

实验结果对比

消融实验：为什么 3D 场景流不可或缺？

作者对比了“无运动先验”和“2D 光流先验”两种变体。结果显示：

去掉运动专家：在堆叠方块任务中成功率从 75.0% 暴跌至 25.0%。
仅使用 2D 光流：在深层交互任务（如把勺子放进碗里）中显著落后于 3D 方案。这验证了核心直觉：物理操纵本质上是 3D 的。

消融实验柱状图 图 2：3D 几何 vs 2D 像素的性能对比，证明了深度信息对接触式任务的关键作用。

深度洞察

LaMP 的成功之处在于它找到了一种轻量化集成物理模型的方法。它没有试图去做一个极其笨重的世界模型（World Model），而是将其简化为一个增强特征的“运动先验”。

优点：兼具 VLM 的强语义和 3D 模型的高精度，且一步去噪保证了实时的推理速度（可在线部署）。

局限性：目前的运动栅格 (20x20) 分辨率仍较低，对于极其纤细的物体（如缝纫针）可能感知不足。未来结合多尺度栅格或自适应采样将是重要的优化方向。

总结

LaMP 展示了 3D 场景流不仅是动作的结果，更是动作的先导。通过将 3D 几何 foresight 注入 VLA 框架，机器人终于开始“带着脑子”去规划每一寸位移。这为构建更通用、更稳健的具身智能体提供了一条极其清晰的路径。

运动预见性可视化 图 3：真实世界任务演示。红色轨迹显示了模型在动作执行前对未来 3D 路径的预测，这正是 LaMP 稳健性的源泉。

Find Similar Papers

Try Our Examples

查找最近其他尝试将三维视觉表征（如点云、占据栅格或 3D 场景流）引入端到端机器视觉语言动作模型 (VLA) 的研究论文。
哪篇论文最早提出了 Flow Matching 用于生成式动作策略，本文在运动先验生成中是如何对其进行改进的？
有哪些研究探讨了将类似于 LaMP 的运动预见性机制应用到具备多指灵巧手或非刚体操纵任务的机器人系统。

Contents

[CVPR 2026] LaMP：赋予 VLA 3D 运动直觉，重定义机器人操纵的物理基石

1. TL;DR

2. 背景定位

3. 痛点深挖：2D 语义与 3D 物理的断层

4. 核心方法：Motion Expert 与门控运动导引

4.1. 1. Motion Expert (运动专家)

4.2. 2. 一步去噪策略 (One-step Denoising)

4.3. 3. Gated Cross-Attention (门控交叉注意力)

5. 实验战绩：全线突破

5.1. SOTA 对比

5.2. 消融实验：为什么 3D 场景流不可或缺？

6. 深度洞察

7. 总结