本文提出了 GeoWorld,一种基于双曲几何的世界模型(Geometric World Model),通过将潜在表示映射到双曲流形并结合几何强化学习(GRL),显著提升了多步视觉规划的稳定性和准确性,在 CrossTask 和 COIN 基准测试中超越了 V-JEPA 2 等 SOTA 方法。
TL;DR
Meta 的 JEPA 架构在自监督学习领域大放异彩,但面对复杂的多步视觉规划时,其欧式空间的表示往往显得“力不从心”。本文提出的 GeoWorld 将世界模型搬到了双曲空间(Hyperbolic Space)。通过模拟物体状态演化的天然层级结构,结合全新的几何强化学习(GRL),GeoWorld 在 4-8 步的长程规划任务中展现了惊人的稳定性,成功解决了长程预测中的误差累积难题。
痛点深挖:为什么欧式空间不够好?
在视觉规划中,从一个状态出发,随着时间推移,可能的未来轨迹呈指数级增加(树状分支)。
- 几何偏见:欧几里得空间是平直的,它无法高效压缩这种指数级的层级关系。
- 长程崩溃:现有的模型在进行多步 Rollout 时,微笑的预测误差会在平坦的欧式空间中迅速放大,形成无约束的漂移,导致规划出的动作序列逻辑断层。
核心机制:Hyperbolic JEPA 与 测地线规划
1. 空间转换:从 到
GeoWorld 的核心在于 H-JEPA。它利用指数映射(Exponential Map)将编码器的输出投射到 Poincaré 球模型中。在双曲空间里,靠近边缘的距离会“爆炸式”增长,这为复杂的动作分叉提供了容量巨大的存储空间。

2. 几何强化学习 (GRL)
为了确保预测的路径是最优的,作者提出了 Geometric Reinforcement Learning。其直觉极其优雅:
- 能量即奖励:将状态间的双曲测地线距离定义为能量,负能量即为奖励。
- 三角形不等式正则化:为了防止模型在预测长距离目标时走“弯路”,利用双曲空间的性质(两点之间测地线最短),强制 。这使得模型的预测轨迹始终紧贴流形上的最短路径。
实验战绩:抗漂移的王者
在 CrossTask 和 COIN 等高难度指令视频数据集上,GeoWorld 证明了其优越性。

- 长程韧性:对比 V-JEPA 2,随着规划步数 从 3 增加到 8,GeoWorld 的性能衰减显著更慢。
- 能量场可视化:在双曲空间下,能量场表现出更强的方向敏感性,能够更清晰地指引最优动作的方向。
深度洞察:为什么这很重要?
GeoWorld 的真正价值在于它对** Inductive Bias(归纳偏置)**的重定义。过去我们过度依赖 Transformer 的注意力机制来捕捉时序关系,而 GeoWorld 告诉我们:空间的性质决定了智能的高度。通过选择更符合现实世界拓扑结构的双曲流形,我们能够以更小的计算代价(无需像素生成)换取更严谨的逻辑推理。
局限性与展望
尽管在预定义的动作任务中表现出色,但 GeoWorld 目前仍依赖于离散的动作标签或预训练的特征偏移。未来的方向在于如何将这种几何直觉应用到更广阔的、无标注的真实机器人操作(Embodied AI)环境中,实现真正的“几何感知型”通用人工智能。
关键词:GeoWorld, Hyperbolic Space, World Models, JEPA, Visual Planning, Reinforcement Learning.
