WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2026] WoG:在条件空间重塑世界模型,实现高精度机器人动作生成
Summary
Problem
Method
Results
Takeaways

本文提出了 WoG (World Guidance),一种新型的 Vision-Language-Action (VLA) 训练框架。该方法通过 Q-Former 机制将未来观测(Future Observations)压缩至紧凑的“条件空间(Condition Space)”,并在推断时让 VLA 模型自主预测这一空间,在保持推断效率的同时显著提升了动作生成的精度与泛化性,在 SIMPLER 仿真和真实机器人任务中均达到 SOTA。

TL;DR

传统的离散化或全图预测模型或因冗余信息太多导致收敛慢,或因信息丢失导致动作粗糙。WoG (World Guidance) 另辟蹊径,它不强求模型“画出”未来,而是要求模型“预测足以指导动作生成的特征条件”。通过两阶段训练,WoG 让 VLA 模型在推断时能“脑补”未来的动作指引,成功在仿真与实机任务中刷新了多项性能基准。

背景定位

在 Vision-Language-Action (VLA) 领域,如何让机器人拥有“远见”一直是研究核心。现有的路线要么是预测像素(太重、冗余多),要么是学习潜空间动作(太轻、精度差)。WoG 的核心价值在于:它定义了一个任务相关且紧凑的“条件空间”,巧妙兼顾了建模效率与控制精度。

痛点深挖:为什么“画图”不是世界模型的唯一解?

作者指出,现有的世界模型(World Models)在机器人操控中存在一个显著错位:

  1. 冗余之困:预测全图视频(如 Stable Video Diffusion 路线)虽然视觉信息丰富,但对于“如何抓起杯子”这个任务,背景的波动或光影的细微变化属于纯粹的干扰。
  2. 精度失灵:早期的 Latent Action 模型类似于对动作做 PCA,虽然捕捉了大概轨迹,但在处理涉及精密碰撞、形变(如折叠毛巾)的任务时,缺乏必要的几何约束和语义细节。

Methodology:两阶段“自引导”学习机制

WoG 的架构设计极为精巧,其核心在于如何从未来观测中萃取“精髓”。

1. 架构解析

  • 特征提取层:同时利用 DINOv2 的语义判别能力和 Wan VAE 的时空生成特征,确保特征既懂“是什么”又懂“怎么变”。
  • 条件压缩(Q-Former):利用可学习的 Query 对未来特征进行交叉注意,将其压缩为极低维度的隐变量
  • 联合推断:在训练阶段,这些未来的 直接注入到动作头(DiT)中作为额外的条件。

模型架构图 图 1:WoG 训练流程。左图为第一阶段的引导学习,右图为第二阶段的对齐推断。

2. 两阶段演进

  • Stage I (World Guidance):建立“未来观测 动作生成”的映射。此时模型已经知道如果未来长这样,动作该怎么做。
  • Stage II (World Inference):这是点睛之笔。此时人类“撤走”了未来观测,要求 VLA 主干根据当前状态,预测出 Stage I 产生的那个压缩条件。通过 Cosine Similarity 损失函数,模型学会了在内部模拟未来的环境变迁,从而在测试时实现“自我引导”。

实验与结果:全方位碾压基线

仿真战绩:不仅快,而且准

在 SIMPLER 环境下,WoG 展示了极强的轨迹规划能力。特别是在“Pick Coke”和“Move Near”任务中,它能够有效避障。 实验结果对比 表 1:WoG 在 SIMPLER 仿真中的表现,平均各任务均有 10% 以上的成功率提升。

真实世界:极强的 OOD 泛化能力

机器人研究最怕“见光死”。WoG 的优势在于其条件空间基于冻结的预训练特征(Frozen Foundation Models),这赋予了它天然的抗干扰能力。

  • 光照变化:即使在极端阴影下,WoG 依然能准确捕捉物体位置。
  • 柔性物体:在“折叠毛巾”任务中,得益于 VAE 提供的时空动态条件,模型对布料形变的感知远胜于单纯的动作序列预测。

扩展潜力:人类视频的巨大价值

WoG 的一个重要启示是:它非常擅长从无标注人类视频中汲取知识。在 Stage II 中,即使视频没有动作标签,模型依然可以利用这些视频来训练“未来条件预测”分支。实验证明,加入 1900 小时人类操作视频后,机器人的泛化能力显著增强。

深度洞察与总结

学术价值:WoG 成功证明了“世界建模”不等于“视觉生成”。在具身智能中,世界模型的本质应当是动作生成的条件提供者。通过将预测目标从高维像素降级为任务相关的紧凑条件,模型学习的难度大幅降低。

局限性:尽管表现优异,但 WoG 在极细微的空间约束(如积木堆叠)上仍受限于 VLM 主干的分辨率能力。未来若能结合更强的视觉几何先验(Spatial Priors),其上线或将进一步拉高。

结论:如果您正在寻找一种既能利用大规模视频、又能保持高性能控制的 VLA 路线,WoG 提供的“条件空间预测”范式无疑是当前最具启发性的方向之一。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试在条件空间(Condition Space)而非原始图像空间进行世界建模的具身智能论文。
  • 哪篇论文最早将 Q-Former 结构应用于跨模态动作指引,本文在特征对其损失函数上做了哪些改进?
  • 探究如何将 WoG 的这种未来条件预测机制应用到双臂协调或更复杂的全身移动操控(Whole-body Manipulation)任务中。
Contents
[2026] WoG:在条件空间重塑世界模型,实现高精度机器人动作生成
1. TL;DR
2. 背景定位
3. 痛点深挖:为什么“画图”不是世界模型的唯一解?
4. Methodology:两阶段“自引导”学习机制
4.1. 1. 架构解析
4.2. 2. 两阶段演进
5. 实验与结果:全方位碾压基线
5.1. 仿真战绩:不仅快,而且准
5.2. 真实世界:极强的 OOD 泛化能力
6. 扩展潜力:人类视频的巨大价值
7. 深度洞察与总结