World Guidance: World Modeling in Condition Space for Action Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

World Guidance: World Modeling in Condition Space for Action Generation

[2026] WoG：在条件空间重塑世界模型，实现高精度机器人动作生成

Summary

Problem

Method

Results

Takeaways

本文提出了 WoG (World Guidance)，一种新型的 Vision-Language-Action (VLA) 训练框架。该方法通过 Q-Former 机制将未来观测（Future Observations）压缩至紧凑的“条件空间（Condition Space）”，并在推断时让 VLA 模型自主预测这一空间，在保持推断效率的同时显著提升了动作生成的精度与泛化性，在 SIMPLER 仿真和真实机器人任务中均达到 SOTA。

TL;DR

传统的离散化或全图预测模型或因冗余信息太多导致收敛慢，或因信息丢失导致动作粗糙。WoG (World Guidance) 另辟蹊径，它不强求模型“画出”未来，而是要求模型“预测足以指导动作生成的特征条件”。通过两阶段训练，WoG 让 VLA 模型在推断时能“脑补”未来的动作指引，成功在仿真与实机任务中刷新了多项性能基准。

背景定位

在 Vision-Language-Action (VLA) 领域，如何让机器人拥有“远见”一直是研究核心。现有的路线要么是预测像素（太重、冗余多），要么是学习潜空间动作（太轻、精度差）。WoG 的核心价值在于：它定义了一个任务相关且紧凑的“条件空间”，巧妙兼顾了建模效率与控制精度。

痛点深挖：为什么“画图”不是世界模型的唯一解？

作者指出，现有的世界模型（World Models）在机器人操控中存在一个显著错位：

冗余之困：预测全图视频（如 Stable Video Diffusion 路线）虽然视觉信息丰富，但对于“如何抓起杯子”这个任务，背景的波动或光影的细微变化属于纯粹的干扰。
精度失灵：早期的 Latent Action 模型类似于对动作做 PCA，虽然捕捉了大概轨迹，但在处理涉及精密碰撞、形变（如折叠毛巾）的任务时，缺乏必要的几何约束和语义细节。

Methodology：两阶段“自引导”学习机制

WoG 的架构设计极为精巧，其核心在于如何从未来观测中萃取“精髓”。

1. 架构解析

特征提取层：同时利用 DINOv2 的语义判别能力和 Wan VAE 的时空生成特征，确保特征既懂“是什么”又懂“怎么变”。
条件压缩（Q-Former）：利用可学习的 Query 对未来特征进行交叉注意，将其压缩为极低维度的隐变量 $O^{c}$ 。
联合推断：在训练阶段，这些未来的 $O^{c}$ 直接注入到动作头（DiT）中作为额外的条件。

模型架构图 图 1：WoG 训练流程。左图为第一阶段的引导学习，右图为第二阶段的对齐推断。

2. 两阶段演进

Stage I (World Guidance)：建立“未来观测 $\to$ 动作生成”的映射。此时模型已经知道如果未来长这样，动作该怎么做。
Stage II (World Inference)：这是点睛之笔。此时人类“撤走”了未来观测，要求 VLA 主干根据当前状态，预测出 Stage I 产生的那个压缩条件。通过 Cosine Similarity 损失函数，模型学会了在内部模拟未来的环境变迁，从而在测试时实现“自我引导”。

实验与结果：全方位碾压基线

仿真战绩：不仅快，而且准

在 SIMPLER 环境下，WoG 展示了极强的轨迹规划能力。特别是在“Pick Coke”和“Move Near”任务中，它能够有效避障。实验结果对比 表 1：WoG 在 SIMPLER 仿真中的表现，平均各任务均有 10% 以上的成功率提升。

真实世界：极强的 OOD 泛化能力

机器人研究最怕“见光死”。WoG 的优势在于其条件空间基于冻结的预训练特征（Frozen Foundation Models），这赋予了它天然的抗干扰能力。

光照变化：即使在极端阴影下，WoG 依然能准确捕捉物体位置。
柔性物体：在“折叠毛巾”任务中，得益于 VAE 提供的时空动态条件，模型对布料形变的感知远胜于单纯的动作序列预测。

扩展潜力：人类视频的巨大价值

WoG 的一个重要启示是：它非常擅长从无标注人类视频中汲取知识。在 Stage II 中，即使视频没有动作标签，模型依然可以利用这些视频来训练“未来条件预测”分支。实验证明，加入 1900 小时人类操作视频后，机器人的泛化能力显著增强。

深度洞察与总结

学术价值：WoG 成功证明了“世界建模”不等于“视觉生成”。在具身智能中，世界模型的本质应当是动作生成的条件提供者。通过将预测目标从高维像素降级为任务相关的紧凑条件，模型学习的难度大幅降低。

局限性：尽管表现优异，但 WoG 在极细微的空间约束（如积木堆叠）上仍受限于 VLM 主干的分辨率能力。未来若能结合更强的视觉几何先验（Spatial Priors），其上线或将进一步拉高。

结论：如果您正在寻找一种既能利用大规模视频、又能保持高性能控制的 VLA 路线，WoG 提供的“条件空间预测”范式无疑是当前最具启发性的方向之一。

Find Similar Papers

Try Our Examples

查找最近其他尝试在条件空间（Condition Space）而非原始图像空间进行世界建模的具身智能论文。
哪篇论文最早将 Q-Former 结构应用于跨模态动作指引，本文在特征对其损失函数上做了哪些改进？
探究如何将 WoG 的这种未来条件预测机制应用到双臂协调或更复杂的全身移动操控（Whole-body Manipulation）任务中。

Contents

[2026] WoG：在条件空间重塑世界模型，实现高精度机器人动作生成

1. TL;DR

2. 背景定位

3. 痛点深挖：为什么“画图”不是世界模型的唯一解？

4. Methodology：两阶段“自引导”学习机制

4.1. 1. 架构解析

4.2. 2. 两阶段演进

5. 实验与结果：全方位碾压基线

5.1. 仿真战绩：不仅快，而且准

5.2. 真实世界：极强的 OOD 泛化能力

6. 扩展潜力：人类视频的巨大价值

7. 深度洞察与总结