DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

[CoRL 2025候选] DreamPlan：用“想象力”为 VLM 补齐物理感知的短板

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DreamPlan，一个通过视频世界模型（Video World Models）对视觉语言规划器（VLM Planners）进行强化学习微调的框架。该方法利用零样本（Zero-shot）VLM 搜集的亚策略数据训练动作条件视频生成模型，并结合 ORPO 算法在虚拟“想象”中完成策略进化，显著提升了机器人在操纵变形物体（如布料、绳索）时的物理落地能力。

TL;DR

视觉语言模型（VLM）虽然在大脑（语义推理）上很强，但在四肢（物理执行）上往往显得“手残”，尤其是在面对折叠布料、拉直绳索等涉及复杂动力学的变形物体时。DreamPlan 提出了一种高效的强化微调方案：先让 VLM 乱试（搜集数据），再用视频扩散模型学会物理规律（建立世界模型），最后在“想象”中通过几率比策略优化（ORPO）自愈。结果显示，它在不依赖大规模实机交互的情况下，将操纵成功率直接翻倍。

1. 背景定位：为什么 VLM 玩不转“变形金刚”？

在具身智能（Embodied AI）领域，直接用预训练的 VLM（如 Qwen-VL, GPT-4O）做规划已不新鲜。然而，这些模型大多是在互联网图文数据上训练的，它们知道“要把布铺平”，但不知道“以什么角度捏住哪个点能让布不缩成一团”。

这种**物理落地（Physical Grounding）**的缺失在操纵变形物体（Deformable Objects）时尤为致命。传统方案要么靠大量专家演示（极其昂贵），要么靠物理仿真器（仿真与现实之间存在巨大的 Sim-to-Real Gap）。那么，能不能让模型自己通过“看视频”学会物理，并在脑海里“预演”正确动作？

2. 核心挑战与直觉

作者发现了一个有趣的现象：即便零样本（Zero-shot）的 VLM 表现很烂，它失败的过程也蕴含了宝贵的“因果律”——动作执行后，物体是怎么变的？

DreamPlan 的核心 Insight 是：利用这些亚策略（Sub-optimal）的交互数据训练一个动作条件视频模型。既然我们造不出完美的动力学公式，那就让深度学习模型去通过视觉特征“模拟”物体的物理形变。

3. 方法论详解：从“乱动”到“预演”

3.1 动作条件的视频生成

普通的视频生成如 Sora 或 CogVideoX 很难精确遵循机器人的指令。DreamPlan 引入了 ControlNet 架构：

渲染轨迹：将机器人手臂的运动学配置渲染成简单的视频流。
结构化注入：作为 ControlNet 的输入，强制引导视频扩散模型生成与机器人动作严格对齐的物体形变。
背景剥离：只预测目标物体的局部裁剪视频，避免背景和光照干扰，让模型专注于“形变”本身。

模型架构图

3.2 离线强化学习：ORPO 带来的效率革命

如果每次模型规划都要生成一段视频，那由于扩散模型推理慢，机器人决策会比树懒还慢。DreamPlan 巧妙地采用了 Best-of-K 策略：

离线评估：对于每个状态，VLM 同时生成 K 个候选动作，世界模型预测每个动作的视频后果，由 GPT-4O 打分找出最好的。
偏好学习：利用 ORPO (Odds Ratio Policy Optimization) 算法，直接在对比中训练 VLM。这使得 VLM 在微调后，看到图像就能直接内化物理直觉，“盲选”出最高概率成功的动作，而不再需要实时运行复杂的视频模型。

4. 实验战绩：全线碾压零样本基线

在绳索拉直、布料折叠和玩具重定位三个高难度任务中，DreamPlan 展现了恐怖的适应力。

实验结果对比

性能飞跃：在 Qwen3-VL-8B 基础上，平均得分从 0.33 飙升至 0.60。
跨级挑战：仅 8B 参数的 DreamPlan 甚至击败了没有经过物理微调的 32B 模型（0.35分）和 GPT-4O。
效率对比：推理时间从采样方案的近 1000 秒压缩到 1.12 秒，推理效率提升约 1000 倍。

操作过程可视化对比 图中绿色边框显示了微调后模型精准的物理操作（如绳索拉直），而粉色边框则显示了原始 VLM 无效的各种瞎忙。

5. 深度洞察与总结

总结 (Takeaway)： DreamPlan 的价值在于它证明了视频生成模型就是未来的物理仿真器。通过将昂贵的视频生成过程“蒸馏”进轻量级的文本/图像模型中，我们可以让 VLM 这种“纯智力”模型真正习得“物理常识”。

局限性 (Limitations)：

视野受限：目前主要依赖局部裁剪视图，无法处理更大规模或受遮挡严重的复杂场景。
动作原子性：目前的动作还基于离散的 Keypoints 采样，对于更精细、连续的力矩控制还有待进一步拓展。

未来展望：随着大规模视频生成技术（如 Sora 级模型）的普及，将视频作为“通用世界模型”来微调具身智能模型可能成为 SOTA 路径。未来的机器人可能不再需要在仿真器里苦练，而是在观看、模拟和自我微调中，习得操纵万物的能力。

Find Similar Papers

Try Our Examples

查找其他利用视频扩散模型（Video Diffusion Models）作为具身智能仿真环境（World Model）的最新研究，特别是针对非刚体操纵的任务。
哪篇论文最早提出了几率比策略优化（ORPO）方法，DreamPlan 是如何将其从 NLP 领域迁移到多模态动作规划领域的？
有哪些研究探讨了将 ControlNet 或类似的结构化约束应用于动作条件视频生成，以提高机器人动作预测的像素级对齐精度？

Contents

[CoRL 2025候选] DreamPlan：用“想象力”为 VLM 补齐物理感知的短板

1. TL;DR

2. 1. 背景定位：为什么 VLM 玩不转“变形金刚”？

3. 2. 核心挑战与直觉

4. 3. 方法论详解：从“乱动”到“预演”

4.1. 3.1 动作条件的视频生成

4.2. 3.2 离线强化学习：ORPO 带来的效率革命

5. 4. 实验战绩：全线碾压零样本基线

6. 5. 深度洞察与总结