WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2026] ICLR 框架:具身视觉推理——打破机器人上下文学习的“意图迷雾”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 ICLR (In-Context Imitation Learning with Visual Reasoning),这是一种新型的上下文模仿学习框架。该方法通过在演示 Prompt 中引入结构化的视觉推理轨迹(Visual Reasoning Traces),使机器人在仅需少量演示的情况下,即可在 Llama-2 式架构下实现对未见任务的 SOTA 泛化表现。

TL;DR

南加州大学(USC)等机构的研究者提出了 ICLR(In-Context imitation Learning with visual Reasoning)。该方法通过在机器人演示中加入“视觉推理迹”(Visual Reasoning Traces),让机器人在模仿动作之前先“思考”未来的运动轨迹。实验证明,这种显式的意图建模使机器人在处理从未见过的物体和复杂环境时,成功率较当前最强基线提升了数倍。

核心定位

在机器人领域,In-Context Learning (ICL) 意味着机器人可以像大语言模型一样,通过看几个演示视频(Prompt)就学会新技能,而无需重新训练权重。然而,以往的方法(如 ICRT)往往只关注“看到什么(State)”和“做什么(Action)”,忽略了“为什么这么做(Intent)”。ICLR 的出现,本质上是为具身智能引入了空间维度的 Chain-of-Thought (CoT)

痛点深挖:消失的意图

传统的上下文模仿学习面临一个核心挑战:歧义性。 在布满杂物的桌面上,演示者抓起一个苹果放入红盒子。机器人如果只观察状态和坐标,可能会混淆:意图是“抓苹果”、“放入红盒子”还是“移动到左侧”?由于缺乏高层的推理表示,模型在面对干扰物或新配置时,极易发生“漂移”。

方法论详解:视觉推理迹(Visual Reasoning Traces)

ICLR 的核心思想是将抽象的意图转化为具体的视觉导向

  1. 推理迹定义:作者定义了一个包含 5 个关键点的多段线(Polyline),代表机器人夹持器在第三视角图像中的未来像素位置。这 5 个点分别对应:接近物体、抓取、平移、到达目标上方、放置。
  2. 统一架构模型架构图 模型采用类似 Llama-2 的 Causal Transformer。它将状态(State)、推理迹(Reasoning)和动作(Action)全部 Token 化。在推理时,模型先预测推理迹 Token ,再根据该意图预测动作序列
  3. 推理丢弃(Reasoning Dropout):这是本文的一大亮点。为了防止模型过度依赖可能出错的推理迹,训练中会随机掩码部分推理 Token。这产生了一个有趣的变体——Ours Dropout,在仿真环境中,这种不显式生成迹、仅在 Context 中保留迹的模型表现反而更稳健。

实验与结果:全方位碾压

研究团队在 LIBERO 仿真环境真实 Franka 机器人 上进行了严苛测试。

1. 仿真战绩

在包含 90 个任务的 LIBERO-90 数据集中,ICLR 的表现令人瞩目。 实验结果对比 如上表所示,在最难的环境下,基线 ICRT 几乎无法完成任务(Avg. 16.27%),而 ICLR Dropout 达到了 54.05% 的水平。

2. 真实世界泛化

实验使用了多种从未见过的物体(如刺猬玩具、狮子等)。

  • Poking (戳刺):成功率 71.67%
  • Pick-and-Place (取放):成功率 60.00% 显式推理(Ours)在真实世界中表现更好,因为它能提供更透明的中间过程,纠正复杂环境下的动作偏差。

深度洞察:为什么“多画几条线”这么管用?

  • 结构化归纳偏置:像素空间的轨迹相比语言描述,与控制动作的关联更直接,减少了跨模态转换的损失。
  • 可解释性与纠错:通过观察预测的推理迹,人类可以直观看到机器人是否“理解错”了任务。故障分析显示,虽然推理迹错误占了约 40%-45% 的失败原因,但它极大地缓解了“动作匹配错误”的问题。
  • 效率平衡:作者发现,即使每 8 或 16 步才进行一次显式推理,性能依然能保持在 SOTA 水平,推理速度却能提升约 8 倍。

总结与展望

ICLR 证明了具身推理不仅可行,而且是上下文学习走向实用的必经之路。尽管目前还局限于 pick-and-place 等简单任务,但这种将“空间直觉”引入 Transformer 序列建模的思路,为未来长程、复杂的双臂协作任务指明了方向。

局限性:目前推理迹严重依赖高质量的第三方视角图像,且对遮挡情况的灵活性有待提升。未来的工作可能会探索结合深度信息或更复杂的“示能性”(Affordance)表示。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试将类似 Chain-of-Thought (CoT) 的推理机制应用于机器人操作策略(Robot Manipulation Policies)的论文。
  • 本文提到的 MolmoAct 和 Molmo2 模型是如何定义视觉推理迹的,这种基于像素的表示与传统的向量化子目标(Sub-goals)有何优劣对比?
  • 探索这种自回归生成视觉轨迹的方法是否已经应用到了双臂协作(Bimanual Manipulation)或长程任务规划(Long-horizon Planning)中?
Contents
[ICLR 2026] ICLR 框架:具身视觉推理——打破机器人上下文学习的“意图迷雾”
1. TL;DR
2. 核心定位
3. 痛点深挖:消失的意图
4. 方法论详解:视觉推理迹(Visual Reasoning Traces)
5. 实验与结果:全方位碾压
5.1. 1. 仿真战绩
5.2. 2. 真实世界泛化
6. 深度洞察:为什么“多画几条线”这么管用?
7. 总结与展望