Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch

[Physical-AI] 触得到的真实：利用多模态触觉跨越 3D 重建的“视觉遮挡”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了一种结合视觉、本体感知（Proprioception）与多点触觉（Multi-contact Touch）的多模态 3D 生成重建方法。该方法基于 Flow-matching 扩散模型，通过在 SDF 潜在空间中引入物理约束，实现了在手部严重遮挡下的度量级（Metric-scale）物体形状与位姿精准重建。

TL;DR

在机器人操作中，手部遮挡通常是视觉感知的噩梦。本文提出了一种全新的物理感知生成重建架构，通过将手部本体感知与多点触觉信号注入到流动匹配（Flow-matching）扩散模型中，实现了即使在物体被完全包裹的情况下，也能生成符合物理逻辑、具备真实度量尺度的 3D 模型。

背景定位：从“看起来像”到“物理可行”

传统的单目 3D 重建（如 SAM3D）在面对干净、无遮挡的图像时表现惊艳，但在机器人抓取场景下会迅速“破防”。主要的痛点在于：

视觉欠定性：遮挡区域的形状可以有无数种可能，仅靠视觉先验生成的模型往往会穿过机器人的手指。
尺度缺失：视觉模型难以精准恢复物体的真实物理尺寸，导致抓取规划失效。

本文的方法论核心在于：如果视觉看不见，那就通过“触碰”和“物理排他性”来推断。

核心方法：基于物理导向的生成式重建

1. 结构化 SDF 表征与 VAE

作者首先通过一个 Structure-VAE 学习 3D 符号距离场（SDF）的潜在空间。与简单的体素（Voxel）不同，SDF 能够提供连续且可微的几何表示，这为后续的物理梯度导向（Guidance）提供了数学基础。

2. 多模态条件融合

模型的输入不再仅仅是 RGB。作者设计了一个多分支跨注意力机制：

视觉通路：处理被手部掩码（Mask）裁剪后的物体图像。
本体感知通路：将已知位姿的手部几何栅格化并编码，作为“负向空间”约束。
触觉通路：将触点位置编码为 3D 占据张量。

模型架构图 图 1：感知推理流程。系统融合了视觉掩码、手部几何与触觉传感器数据，通过 Flow Transformer 生成符合物理规律的 SDF。

3. 推理阶段的物理导向（Physics Guidance）

这是本文最精妙的地方。在扩散模型的每一步迭代中，算法都会反向传播两个物理损失：

非穿透损失（ $L_{N I}$ ）：如果生成的物体侵入了手部的空间，产生惩罚。
触点一致性损失（ $L_{C}$ ）：如果物体表面没有经过传感器探测到的触点，产生惩罚。这种“即时修正”确保了最终生成的模型不仅视觉上美观，而且在物理上是可操作的。

实验结果：遮挡下的霸主

在 YCB 数据集的测试中，面对不同程度的遮挡，本文方法展现了极强的韧性。

1. 精度对比

对比 vision-only 的 SOTA 基线 Amodal3R 和强大的 SAM3D，本方法在 Voxel-IoU 和 Chamfer Distance 上均显示出显著优势。尤其是在极端遮挡阶段（Bin 5），基线模型几乎失效，而本方法凭借触觉约束依然保持了较高的重建一致性。

实验结果对比 表 1：不同遮挡程度下的重建性能，Ours 在各项指标上均表现稳健。

2. 可视化分析

从定性结果看，Vision-only 模型经常会在被遮挡的部分生成碎片或错误的尺寸，而本文的方法能精准生成与手部契合的几何结构。

定性对比图 图 2：仿真展示。注意看第二列（Ours），物体与手指的接合处极其自然，没有严重的重叠穿插。

深度洞察与总结

本文的贡献不仅在于刷榜，而是在于提供了一种“具身智能”的感知范式。 传统的 CV 模型将环境视为“旁观者”，而本工作将其视为“参与者”。通过将末端执行器的运动学模型作为几何先验，物理接触作为显式观测，作者成功地将一个原本欠定的数学问题（单目遮挡重建）转化为一个约束优化问题。

局限性与展望

分辨率权衡：目前基于 $6 4^{3}$ 的网格重建，对于物体细微特征（如剪刀刃）的刻画仍显不足。
标定依赖：实机测试表明，手部-相机的标定误差会严重影响触觉信号的对齐。 -未来方向：将触觉进一步扩展为物理属性（如摩擦力、刚度）的推断，从而实现不仅能“看清”几何，还能“感知”动态。

Takeaway: 物理常识（Physics-basis）是 3D 重建从虚拟图像走向现实机器人操作的最后一块拼图。

Find Similar Papers

Try Our Examples

查找最近其他结合视觉与物理触觉信号进行非完全可见（Amodal）3D 物体重建的深度学习论文。
哪篇论文最早在扩散模型中提出“物理引导（Physics-guidance）”推理，本文的梯度导向方法与其有何改进？
有哪些研究将基于 SDF 表征的流量匹配（Flow Matching）模型应用到了机器人多模态感知或抓取规划任务中？

Contents

[Physical-AI] 触得到的真实：利用多模态触觉跨越 3D 重建的“视觉遮挡”

1. TL;DR

2. 背景定位：从“看起来像”到“物理可行”

3. 核心方法：基于物理导向的生成式重建

3.1. 1. 结构化 SDF 表征与 VAE

3.2. 2. 多模态条件融合

3.3. 3. 推理阶段的物理导向（Physics Guidance）

4. 实验结果：遮挡下的霸主

4.1. 1. 精度对比

4.2. 2. 可视化分析

5. 深度洞察与总结

5.1. 局限性与展望