ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

[IJRR 2026] ActiveGlasses：赋予机器人人类般的“主动视觉”与徒手学习能力

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 ActiveGlasses，一种利用智能眼镜（XREAL）和立体相机（ZED Mini）捕捉人类徒手操作及主动视觉（Active Vision）轨迹的机器人学习系统。通过 3D 点云策略预测物体 6-DoF 轨迹与头部运动，实现了从人类示教到双臂机器人（操作臂+视觉臂）的 Zero-shot 迁移，在遮挡和高精度任务中表现优异。

TL;DR

ActiveGlasses 是一个创新的机器人学习系统。它通过让操作者佩戴集成了立体相机的智能眼镜，直接以徒手（Bare-hand）方式完成任务示教，同时记录下人类为了观察物体而产生的头部运动（Active Vision）。在部署时，一台机器人负责操作，另一台机器人负责模仿人类“转头”观察。这种“眼随手动”的协同机制，让机器人在处理遮挡和高精度插拔任务时，成功率比主流 baseline 提升了 30% 以上。

1. 痛点深挖：被动视觉的局限性

在机器人领域，视角（Viewpoint）通常是静态的（笼式相机）或者极其死板的（腕部相机）。

固定相机：容易被机械臂自身或环境物体遮挡。
腕部相机：视角完全被末端执行器“绑架”，无法独立于动作进行观察调整。
数据采集效率：现有的遥操作（Teleoperation）或手持设备（如 UMI）虽然效果好，但操作者不仅累，而且动作僵硬，缺乏人类在处理精细活时那种“侧头观察”、“近距离聚焦”的感知智慧。

2. 核心直觉：像人一样观察，像人一样操作

ActiveGlasses 的核心 Insight 在于：人类的动作是由意图驱动的感知引导的。当你要把一本书塞进挤满的书架时，你会不自觉地歪头看那个缝隙。

系统架构

模型架构图

硬件层：XREAL Air 2 Ultra 眼镜（捕捉 6-DoF 头部姿态）+ ZED Mini 相机（生成立体视觉）。
感知层：使用 FoundationStereo 生成深度图，并通过 Grounded-SAM 去除画面中的人类手臂（Masking），只留下干净的环境点云。
策略层：
- 以物体为中心 (Object-Centric)：预测的是物体的 6D 轨迹，而不是机械臂的关节角。这使得同一套策略可以部署在 UR5 或 Flexiv 等不同形态的机器人上。
- 同步扩散输出：网络同时输出两个轨迹——一个是物体的操作轨迹（绝对坐标），一个是头部的移动轨迹（相对坐标）。

3. 实验结果：主动感知的威力

研究团队在三个“不转头看不清”的任务中进行了测试：

书柜置物：初始位置被墙遮挡。
面包插入：烤面包机插槽极窄。
远距离遮挡倒水：目标杯子被挡板完全遮盖。

实验结果对比

关键发现：

SOTA 对比：相比于直接套用大模型 π0.5，ActiveGlasses 在复杂阶段（Stage 3）的成功率大幅领先。这是因为 π0.5 在 2D 图像空间中很难解耦头部运动带来的背景剧烈晃动，而 3D 点云表征在世界坐标系下保持了空间一致性。
消融实验：如果不启用“主动视觉”（感知臂固定），模型在面包插入任务中完全失效（0/20），证明了动态视角调节在精细操作中不是可选项，而是必选项。

4. 深度洞察：为什么不输入“当前位姿”？

文章中有一个非常有趣的 Ablation Study：通常在模仿学习中，我们会把机械臂当前的 Pose 作为 Condition 输入。但作者发现，如果不输入物体当前的位姿 (w/o current pose)，效果反而更好。

原因分析：显式输入当前位姿会给模型提供一条“捷径”，导致它倾向于记住动作的统计均值（Overfitting），从而忽略了实时视觉反馈。通过“禁闭”位姿信号，迫使 Diffusion Policy 每一帧都必须从点云中提取特征，增强了系统应对外界干扰的鲁棒性。

5. 总结与未来展望

ActiveGlasses 证明了轻量化 AR 设备+主动视觉协同是解决机器人“数据饥渴”的一条康庄大道。它让数据采集变得像戴眼镜散步一样简单，同时捕捉到了人类感知中最高级的部分。

局限性：目前系统仍依赖稳定的物体位姿估计（如 FoundationPose），对于完全无纹理或者是高度变形的物体（如衣物）可能面临挑战。未来如果能将这种主动观察逻辑引入多模态大模型（VLA），机器人的通用操作能力有望迎来真正的质变。

作者简介：本文由上海交通大学 Cewu Lu (卢策吾) 团队发布。该实验室在 3D 视觉与机器人交互领域长期处于领先地位。

Find Similar Papers

Try Our Examples

查找最近其他探讨如何将人类主动感知（Active Perception）整合进仿人机器人或多臂协作系统中的策略学习论文。
哪篇论文最早由于 RISE 架构提出 3D 点云模拟模仿学习，ActiveGlasses 在此基础上对动作空间（Action Space）做了哪些具体的表征优化？
研究是否有将 FoundationPose 与扩散策略（Diffusion Policy）结合，用于解决具有透明度或高反光特征物体的跨具身操作任务？

Contents

[IJRR 2026] ActiveGlasses：赋予机器人人类般的“主动视觉”与徒手学习能力

1. TL;DR

2. 1. 痛点深挖：被动视觉的局限性

3. 2. 核心直觉：像人一样观察，像人一样操作

3.1. 系统架构

4. 3. 实验结果：主动感知的威力

5. 4. 深度洞察：为什么不输入“当前位姿”？

6. 5. 总结与未来展望