GeoWorld: Geometric World Models

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

GeoWorld: Geometric World Models

[CVPR 2026] GeoWorld：让世界模型学会“几何直觉”，攻克长程规划难题

总结

问题

方法

结果

要点

本文提出了 GeoWorld，一种基于双曲几何的世界模型（Geometric World Model），通过将潜在表示映射到双曲流形并结合几何强化学习（GRL），显著提升了多步视觉规划的稳定性和准确性，在 CrossTask 和 COIN 基准测试中超越了 V-JEPA 2 等 SOTA 方法。

TL;DR

Meta 的 JEPA 架构在自监督学习领域大放异彩，但面对复杂的多步视觉规划时，其欧式空间的表示往往显得“力不从心”。本文提出的 GeoWorld 将世界模型搬到了双曲空间（Hyperbolic Space）。通过模拟物体状态演化的天然层级结构，结合全新的几何强化学习（GRL），GeoWorld 在 4-8 步的长程规划任务中展现了惊人的稳定性，成功解决了长程预测中的误差累积难题。

痛点深挖：为什么欧式空间不够好？

在视觉规划中，从一个状态出发，随着时间推移，可能的未来轨迹呈指数级增加（树状分支）。

几何偏见：欧几里得空间是平直的，它无法高效压缩这种指数级的层级关系。
长程崩溃：现有的模型在进行多步 Rollout 时，微笑的预测误差会在平坦的欧式空间中迅速放大，形成无约束的漂移，导致规划出的动作序列逻辑断层。

核心机制：Hyperbolic JEPA 与测地线规划

1. 空间转换：从 $R^{n}$ 到 $B^{n}$

GeoWorld 的核心在于 H-JEPA。它利用指数映射（Exponential Map）将编码器的输出投射到 Poincaré 球模型中。在双曲空间里，靠近边缘的距离会“爆炸式”增长，这为复杂的动作分叉提供了容量巨大的存储空间。

模型架构图

2. 几何强化学习 (GRL)

为了确保预测的路径是最优的，作者提出了 Geometric Reinforcement Learning。其直觉极其优雅：

能量即奖励：将状态间的双曲测地线距离定义为能量，负能量即为奖励。
三角形不等式正则化：为了防止模型在预测长距离目标时走“弯路”，利用双曲空间的性质（两点之间测地线最短），强制 $d (s_{1}, s_{3}) \approx d (s_{1}, s_{2}) + d (s_{2}, s_{3})$ 。这使得模型的预测轨迹始终紧贴流形上的最短路径。

实验战绩：抗漂移的王者

在 CrossTask 和 COIN 等高难度指令视频数据集上，GeoWorld 证明了其优越性。

实验结果对比

长程韧性：对比 V-JEPA 2，随着规划步数 $T$ 从 3 增加到 8，GeoWorld 的性能衰减显著更慢。
能量场可视化：在双曲空间下，能量场表现出更强的方向敏感性，能够更清晰地指引最优动作的方向。

深度洞察：为什么这很重要？

GeoWorld 的真正价值在于它对** Inductive Bias（归纳偏置）**的重定义。过去我们过度依赖 Transformer 的注意力机制来捕捉时序关系，而 GeoWorld 告诉我们：空间的性质决定了智能的高度。通过选择更符合现实世界拓扑结构的双曲流形，我们能够以更小的计算代价（无需像素生成）换取更严谨的逻辑推理。

局限性与展望

尽管在预定义的动作任务中表现出色，但 GeoWorld 目前仍依赖于离散的动作标签或预训练的特征偏移。未来的方向在于如何将这种几何直觉应用到更广阔的、无标注的真实机器人操作（Embodied AI）环境中，实现真正的“几何感知型”通用人工智能。

关键词：GeoWorld, Hyperbolic Space, World Models, JEPA, Visual Planning, Reinforcement Learning.

发现相似论文

试试这些示例

查找最近一年内在具身智能（Embodied AI）或机器人操作任务中应用双曲表示学习（Hyperbolic Representation Learning）的其他论文。
哪篇论文最早在计算机视觉中引入了 Poincaré Ball 模型，GeoWorld 在其基础上如何实现了动态的测地线学习？
调研当前除了三角形不等式正则化（Triangle Inequality Regularization）之外，还有哪些方法可以约束预测模型在潜在空间中的时间一致性？

[CVPR 2026] GeoWorld：让世界模型学会“几何直觉”，攻克长程规划难题

1. TL;DR

2. 痛点深挖：为什么欧式空间不够好？

3. 核心机制：Hyperbolic JEPA 与测地线规划

3.1. 1. 空间转换：从 $\mathbb{R}^n$ 到 $\mathbb{B}^n$

3.2. 2. 几何强化学习 (GRL)

4. 实验战绩：抗漂移的王者

5. 深度洞察：为什么这很重要？

6. 局限性与展望