WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[CVPR 2026] GeoWorld:让世界模型学会“几何直觉”,攻克长程规划难题
总结
问题
方法
结果
要点

本文提出了 GeoWorld,一种基于双曲几何的世界模型(Geometric World Model),通过将潜在表示映射到双曲流形并结合几何强化学习(GRL),显著提升了多步视觉规划的稳定性和准确性,在 CrossTask 和 COIN 基准测试中超越了 V-JEPA 2 等 SOTA 方法。

TL;DR

Meta 的 JEPA 架构在自监督学习领域大放异彩,但面对复杂的多步视觉规划时,其欧式空间的表示往往显得“力不从心”。本文提出的 GeoWorld 将世界模型搬到了双曲空间(Hyperbolic Space)。通过模拟物体状态演化的天然层级结构,结合全新的几何强化学习(GRL),GeoWorld 在 4-8 步的长程规划任务中展现了惊人的稳定性,成功解决了长程预测中的误差累积难题。

痛点深挖:为什么欧式空间不够好?

在视觉规划中,从一个状态出发,随着时间推移,可能的未来轨迹呈指数级增加(树状分支)。

  • 几何偏见:欧几里得空间是平直的,它无法高效压缩这种指数级的层级关系。
  • 长程崩溃:现有的模型在进行多步 Rollout 时,微笑的预测误差会在平坦的欧式空间中迅速放大,形成无约束的漂移,导致规划出的动作序列逻辑断层。

核心机制:Hyperbolic JEPA 与 测地线规划

1. 空间转换:从

GeoWorld 的核心在于 H-JEPA。它利用指数映射(Exponential Map)将编码器的输出投射到 Poincaré 球模型中。在双曲空间里,靠近边缘的距离会“爆炸式”增长,这为复杂的动作分叉提供了容量巨大的存储空间。

模型架构图

2. 几何强化学习 (GRL)

为了确保预测的路径是最优的,作者提出了 Geometric Reinforcement Learning。其直觉极其优雅:

  • 能量即奖励:将状态间的双曲测地线距离定义为能量,负能量即为奖励。
  • 三角形不等式正则化:为了防止模型在预测长距离目标时走“弯路”,利用双曲空间的性质(两点之间测地线最短),强制 。这使得模型的预测轨迹始终紧贴流形上的最短路径。

实验战绩:抗漂移的王者

在 CrossTask 和 COIN 等高难度指令视频数据集上,GeoWorld 证明了其优越性。

实验结果对比

  • 长程韧性:对比 V-JEPA 2,随着规划步数 从 3 增加到 8,GeoWorld 的性能衰减显著更慢。
  • 能量场可视化:在双曲空间下,能量场表现出更强的方向敏感性,能够更清晰地指引最优动作的方向。

深度洞察:为什么这很重要?

GeoWorld 的真正价值在于它对** Inductive Bias(归纳偏置)**的重定义。过去我们过度依赖 Transformer 的注意力机制来捕捉时序关系,而 GeoWorld 告诉我们:空间的性质决定了智能的高度。通过选择更符合现实世界拓扑结构的双曲流形,我们能够以更小的计算代价(无需像素生成)换取更严谨的逻辑推理。

局限性与展望

尽管在预定义的动作任务中表现出色,但 GeoWorld 目前仍依赖于离散的动作标签或预训练的特征偏移。未来的方向在于如何将这种几何直觉应用到更广阔的、无标注的真实机器人操作(Embodied AI)环境中,实现真正的“几何感知型”通用人工智能。


关键词:GeoWorld, Hyperbolic Space, World Models, JEPA, Visual Planning, Reinforcement Learning.

发现相似论文

试试这些示例

  • 查找最近一年内在具身智能(Embodied AI)或机器人操作任务中应用双曲表示学习(Hyperbolic Representation Learning)的其他论文。
  • 哪篇论文最早在计算机视觉中引入了 Poincaré Ball 模型,GeoWorld 在其基础上如何实现了动态的测地线学习?
  • 调研当前除了三角形不等式正则化(Triangle Inequality Regularization)之外,还有哪些方法可以约束预测模型在潜在空间中的时间一致性?
目录
[CVPR 2026] GeoWorld:让世界模型学会“几何直觉”,攻克长程规划难题
1. TL;DR
2. 痛点深挖:为什么欧式空间不够好?
3. 核心机制:Hyperbolic JEPA 与 测地线规划
3.1. 1. 空间转换:从 $\mathbb{R}^n$ 到 $\mathbb{B}^n$
3.2. 2. 几何强化学习 (GRL)
4. 实验战绩:抗漂移的王者
5. 深度洞察:为什么这很重要?
6. 局限性与展望