WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[CVPR 2024] OmniVTA:预测型视触觉世界模型,开启接触密集型机器人操控新范式
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 OmniVTA,这是一个基于世界模型的视触觉(Visuo-Tactile)机器人操控框架,以及一个包含 2.1 万余条轨迹的大规模数据集 OmniViTac。该框架通过一个自监督触觉编码器、双流视触觉世界模型以及 60Hz 的反射式控制器,实现了对接触密集型任务(如擦拭、组装、切割)的高精度闭环控制。

TL;DR

传统的机器人视觉操控在遇到“擦拭”、“切割”或“精细组装”这类需要实时感知力量变化的接触密集型任务(Contact-Rich Tasks)时常常力不从心。本文通过提出 OmniVTA 框架,将“大脑”的预见性控制(世界模型预测)与“脊髓”的反射性调节(60Hz 高频控制)结合,配合目前规模最大的真实世界视触觉数据集 OmniViTac,实现了超越人类示教水平的稳健操控。

1. 痛点深挖:为什么视觉不是万能的?

在机器人操作中,仅凭视觉(Vision-only)很难判断物体表面的摩擦力波动、细微的卡扣对齐或划动时的压力分布。

  • 数据匮乏:现有的视触觉数据集规模小、任务单一(大多只是简单的抓取)。
  • 认知被动:大多数算法将触觉作为普通的输入特征,就像给视觉挂了个“传感器挂件”,却没有理解触觉随动作演化的物理规律。
  • 反馈滞后:主流方法通常采用 Action Chunking(动作块)策略,一旦环境发生突发扰动(如物体滑动),机器人往往要等下一个规划周期才能反应,这在精细操作中是致命的。

2. 核心架构:TactileVAE 与双流世界模型

OmniVTA 的核心逻辑在于其层次化控制策略

2.1 TactileVAE:触觉的“隐式”表达

为了高效处理高分辨率的触觉信号,作者没有直接使用原始图像,而是提取了 3D 标志位位移,并利用 隐式神经表示(INR) 训练了一个 TactileVAE。它可以根据空间坐标采样,连续地重建触觉表面的变形场(Deformation Field)。

模型架构图 图 1:OmniVTA 框架概览,展示了从触觉编码到世界模型预测,再到闭环执行的全过程。

2.2 视触觉世界模型(VTWM)

作者构建了一个基于 扩散 Transformer (DiT) 的双流模型。它不仅“看”当前的图像,还能预测未来几步的视觉和触觉特征演化。这种**前馈预期(Feedforward Anticipation)**能力让机器人提前感知到即将发生的接触状态改变。

3. 操控革命:快慢结合的反射式控制

OmniVTA 借鉴了人类神经系统的“快慢系统”理论:

  1. 慢速规划(Slow Policy):以较低频率运行,融合预测的触觉差分(Latent Tactile Differential, LTD)生成全局动作轨迹。
  2. 快速反射(Fast Policy):即其提出的 Reflexive Latent Tactile Controller (RLTC),以 60Hz 的频率运行。它不断比对“世界模型预测的触觉”与“实际观测到的触觉”,如果发现出入(说明发生了偏移或扰动),立即产生极小的修正动作。

实验结果对比 图 2:在复杂的切割(Cut)和组装(Assembly)任务中,OmniVTA 展现了极其精确的力量控制。

4. 实验与实战表现

作者在六大类任务中进行了广泛测试,包括:擦拭、剥皮、切割、组装、抓取、在手调整

  • SOTA 对比:在几乎所有任务上,OmniVTA 的成功率均大幅领先于 Diffusion Policy (+50% 以上) 和 RDP 等方法。
  • 扰动鲁棒性:在“擦拭”过程中突然改变物体高度,OmniVTA 能够通过 60Hz 反射控制器迅速找回接触点,而传统方法则会直接在空中“打空划”。
  • 自适应融合:正如论文中图 14 所示,模型会根据接触概率自动调节视觉和触觉的权重——未接触时看视觉,接触后听触觉。

训练数据详情 表 1:各基线模型在复杂任务下的性能对比,OmniVTA(末行)在各项指标上均处于统治地位。

5. 总结与启示

OmniVTA 的成功主要归功于其对触觉信号“空间局部性”和“接触驱动动力学”的深刻理解。它不再是机械地复现动作轨迹,而是学会了理解接触过程中的物理反馈

局限性:尽管反射控制器大幅提升了鲁棒性,但目前世界模型的推理延迟(230ms)对于需要极速感知的极限任务(如捕捉滑落的冰块)仍有优化空间。

未来展望:OmniViTac 数据集的开源将为社区提供宝贵的燃料,未来将视触觉模型集成到更大规模的多模态大模型(VLA)中,指日可待。

Find Similar Papers

Try Our Examples

  • 查找最近一年内利用扩散世界模型(Diffusion World Models)进行多模态机器人感知与规划的 SOTA 论文。
  • 哪篇论文最早将隐式神经表示(Implicit Neural Representations)应用于触觉传感器数据建模,OmniVTA 相比之下的改进点是什么?
  • 调研目前除了 GelSight 类传感器外,还有哪些高性能触觉传感器已被集成到大规模视触觉学习数据集中?
Contents
[CVPR 2024] OmniVTA:预测型视触觉世界模型,开启接触密集型机器人操控新范式
1. TL;DR
2. 1. 痛点深挖:为什么视觉不是万能的?
3. 2. 核心架构:TactileVAE 与双流世界模型
3.1. 2.1 TactileVAE:触觉的“隐式”表达
3.2. 2.2 视触觉世界模型(VTWM)
4. 3. 操控革命:快慢结合的反射式控制
5. 4. 实验与实战表现
6. 5. 总结与启示