IGV-RRT: Prior-Real-Time Observation Fusion for Active Object Search in Changing Environments

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

IGV-RRT: Prior-Real-Time Observation Fusion for Active Object Search in Changing Environments

[2026] IGV-RRT：打破静态幻觉，在变化万千的室内场景中精准寻物

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 IGV-RRT，一个针对动态室内环境的机器人主动目标搜索（Active Object Search）框架。该框架结合了基于 3D 场景图（3DSG）的先验信息增益图（IGM）与基于视觉语言模型（VLM）的实时语义得分图（VLM-SM），通过概率规划算法实现在物体位置变动环境下的高效导航。

TL;DR

在机器人导航领域，处理“会变”的环境始终是一大难题。本文介绍的 IGV-RRT 框架，通过融合历史先验图（IGM）与实时视觉语义图（VLM-SM），让机器人在由于物体被搬动而导致历史记忆失效时，依然能凭借 VLM 的实时洞察力和一种新型的采样规划算法，高效、鲁棒地找到目标。在 HM3D 复杂场景中，该方法将搜索成功率提升了近 25%。

1. 痛点深挖：过时的“地图”与迷茫的“感知”

传统的物体目标导航（ObjectNav）面临两个极端：

过度依赖先验：比如机器人记得“杯子通常在茶几上”，但如果主人把杯子移到了餐桌，机器人可能还在茶几附近死磕。
过度依赖实时观测：虽然视觉语言模型（VLM）如 BLIP-2 赋予了机器人“识物”的能力，但在复杂的、充满遮挡和噪声的室内环境中，单帧的视角往往存在偏差，导致机器人反复打转，搜索效率极低。

本文作者敏锐地指出：我们需要一种能够同时利用历史经验并以此为基础进行动态纠偏的机制。

2. 核心架构：双层语义映射

IGV-RRT 的核心在于其设计的双层语义映射架构（见下图），它将“经验”与“现实”进行了分层处理。

总体架构图

2.1 全局先验：信息增益图 (IGM)

机器人根据之前的探索构建 3D 场景图（3DSG），并结合 ConceptNet 常识知识库。例如，如果要找“苹果”，IGM 会基于“苹果常出现在冰箱或桌子附近”的关联性，利用高斯混合模型（GMM）在地图上生成概率分布。这为机器人提供了全局的“灵感”。

2.2 局部验证：VLM 得分图 (VLM-SM)

这是解决动态变化的关键。机器人利用 BLIP-2 实时分析 RGB-D 图像，并通过多提示词（Multi-prompt）策略增强语义信号的区分度。这些得分被增量式地融合进一个网格地图中。如果先验失效（杯子不在茶几），VLM-SM 的实时权重会迅速上升，指引机器人转向真正有希望的区域。

3. 算法核心：IGV-RRT 规划器

如何将这两张图转化为机器人的动作？作者对经典的 RRT（快速扩展随机树）进行了改造。

在树节点的扩展和子目标（Sub-goal）选择中，算法定义了一个联合效用函数 $U_{final}$： $$U_{final}(v) = \lambda_d \cdot (1 - D(v)) + \mathbb{I}(v otin \mathcal{M}_{exp}) \cdot [ \lambda_e \cdot E(v) + \lambda_s \cdot S(v) ]$$

$E(v)$ (Information Gain)：鼓励机器人去先验概率高且未探索的区域。
$S(v)$ (Semantic Support)：根据 VLM-SM 的在线观测，增加当前语义相关性强的区域权重。
$\mathcal{M}_{exp}$ (Explored-region Mask)：这是一个非常聪明的“除噪”设计（见下图）。它会强力压制已经看过的区域，防止机器人在同一个地方反复验证，从而极大提升了搜索效率。

探索掩码机制

4. 实验验证：从仿真到现实

在 HM3D 模拟器中，作者模拟了物体移动后的“先验-现实失配”场景。

| 方法 | 成功率 (SR) | 路径效率 (SPL) | | :--- | :--- | :--- | | VLFM (Baseline) | 34.4% | 16.7% | | IGV-RRT (Ours) | 42.9% | 26.3% |

实验结果显示，单纯依靠 VLM 的方法（VLFM）在长程搜索中容易迷失，而 IGV-RRT 凭借全局先验能够快速定位，并利用在线 VLM-SM 修正偏差。

在真实世界机器人（Wheeltec R550）测试中，该算法成功展示了“先遵循先验靠近目标区域 -> 发现先验错误 -> 根据 VLM 实时指引转向真实目标”的全过程（见下图轨迹对比）。

实验轨迹对比

5. 深度洞察

IGV-RRT 的成功在于它不再试图维护一个“完美且实时更新”的 3D 场景图（这在计算上极其昂贵），而是将静态的拓扑先验与动态的网格语义证据解耦。这种设计不仅保证了实时性，也赋予了系统极强的容错能力。

局限性与未来展望：目前该框架的先验图（IGM）在被证明错误后并不会被永久更新回原始场景图中。未来的研究方向在于如何实现长期的、自适应的场景图演进，使机器人能够在数月甚至数年的部署中，真正学会环境的演变规律。

总结： IGV-RRT 证明了在具身智能任务中，大模型的“常识”固然重要，但如何通过合理的概率规划架构将其嵌入机器人运动控制回路，才是落地应用的关键。

Find Similar Papers

Try Our Examples

查找最近一年内解决机器人 ObjectNav 中物体位置动态变化或长周期环境演变问题的 SOTA 论文。
哪篇论文最早提出了将 3D Scene Graphs (3DSG) 与常识图谱（如 ConceptNet）结合进行概率推理的方法？
有哪些研究在移动机器人领域应用了 GroundingDINO 和 MobileSAM 进行开放集目标检测与分割的实时集成？

Contents

[2026] IGV-RRT：打破静态幻觉，在变化万千的室内场景中精准寻物

1. TL;DR

2. 1. 痛点深挖：过时的“地图”与迷茫的“感知”

3. 2. 核心架构：双层语义映射

3.1. 2.1 全局先验：信息增益图 (IGM)

3.2. 2.2 局部验证：VLM 得分图 (VLM-SM)

4. 3. 算法核心：IGV-RRT 规划器

5. 4. 实验验证：从仿真到现实

6. 5. 深度洞察