WisPaper
WisPaper
Scholar Search
Scholar QA
AI Feeds
Pricing
TrueCite
[CVPR 2026] DiReCT:解耦对比正则化,让视频生成真正读懂物理定律
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 DiReCT,一种针对流匹配 (Flow-matching) 视频生成模型的轻量级后期训练框架。通过引入解耦的对比正则化机制,该方法在不增加推理成本的前提下,显著提升了生成视频的物理常识一致性,在 WorldModelBench 榜单上超越了参数量大其数倍的模型。

TL;DR

尽管当前的视频生成模型(如 Sora, Wan 2.1)能拍出电影级大片,但它们经常让球穿过墙壁、让水向上流。本文提出的 DiReCT 框架通过一种巧妙的“找茬”式对比学习——即解耦对比正则化 (Disentangled Regularization of Contrastive Trajectories),在不增加模型规模的情况下,大幅强化了视频生成的物理真实性,刷新了多项物理评测榜单。

痛点深挖:为什么 AI 视频总是“不讲物理”?

目前的主流模型大多基于流匹配 (Flow-matching) 架构。其训练目标是回归每帧之间的“速度场”。但问题在于:

  1. 平均律陷阱:当模型遇到相似的描述时,它倾向于学习一种“平均速度”,导致动作变得平庸且模糊,失去了精准的物理碰撞或加速细节。
  2. 语义与物理的纠缠 (Semantic-Physics Entanglement):在文本提示词中,“一辆车在开”和“一辆车撞墙”语义极度接近,模型很难仅仅通过重建损失分辨出哪种轨迹是符合物理逻辑的。
  3. 梯度冲突:之前的对比学习方法(如 $\Delta$FM)随机选取负样本。但在视频领域,如果负样本语义太接近,对比梯度会直接与重建梯度“打架”,导致画面质量崩坏。

核心方法:DiReCT 的双尺度“炼金术”

为了解决上述冲突,作者提出了 DiReCT,它通过两个尺度的对比来强制模型区分物理轨迹:

1. 宏观对比 (Macro-Contrastive, MaNS)

利用语义聚类,强行拉开不同类别场景之间的距离。例如,生成“奔跑的人”时,绝对不拿“走路的人”做对比,而是拿“流动的云”做负样本。这确保了梯度是协同的,建立了全局的速度场结构。

2. 微观对比 (Micro-Contrastive, MiNS) —— 核心创新

这是本文的精华。作者利用 LLM(如 Qwen2.5)对物理规律进行粒子级“投毒”。

  • 方法:保持场景描述完全一致,仅修改一个物理参数(如:将“弹性碰撞”改为“穿透”)。
  • 效果:这创造了极难分辨的“硬负样本”。模型被迫在语义几乎相同的空间里,学会识别哪怕极其细微的物理违背(如重力加速度不对、材质硬度不对)。

模型架构与物理扰动示意图 上图展示了 5 种物理扰动维度:动力学、力学、材质、交互、量级。

实验结果:小参数也能“智取”大模型

实验数据令人振奋。DiReCT 在仅有 1.3B 参数的情况下,在物理评测集 WorldModelBench 上的表现竟然超过了 10B 规模的 Mochi 和 5B 规模的 CogVideoX。

| 模型 | 参数量 | WorldModelBench 总分 (↑) | | :--- | :--- | :--- | | CogVideoX-5B | 5B | 5.33 | | Mochi-1 | 10B | 4.91 | | DiReCT (Ours) | 1.3B | 5.68 |

实验结果对比 训练曲线显示:传统的 SFT(有监督微调)很快会陷入停滞,而 DiReCT 的物理感知信号能支撑模型持续进化。

可视化分析:谁更懂物理?

在对比图中可以明显看到:

  • 基线模型(如 LTX, CogVideoX):饼干浸入咖啡时会像液体一样溶化,或者勺子搅拌时直接穿过容器壁。
  • DiReCT:物体保持了良好的结构完整性,搅拌和碰撞动作完全符合现实直觉。

定性对比图

总结与洞察

DiReCT 的成功告诉我们:视频生成模型的未来不在于无脑堆算力,而在于“高质量的裁判”。通过解耦语义与物理,并利用 LLM 生成精准的物理负反馈,我们可以在极小的模型代价下,获得极大的物理逻辑提升。

局限性:目前该方法依赖离线生成的视频作为负样本,且对 LLM 扰动提示词的质量有依赖。未来如果能实现端到端的实时物理梯度回传,视频生成将真正具备“世界模型”的潜质。

Find Similar Papers

Try Our Examples

  • 查找最近其他尝试解决视频生成模型中物理规律违背问题(Physical Law Violation)的论文,特别是涉及合成物理数据(Synthetic Physics Data)的方法。
  • 哪篇论文最早提出了对比流匹配(Contrastive Flow Matching, ΔFM),本文在分析梯度冲突(Gradient Conflict)方面对其理论做了哪些核心扩展?
  • 有哪些研究探讨了将大语言模型(LLM)作为视频生成训练中的“物理扰动器”或“自动化评估器”的类似应用?
Contents
[CVPR 2026] DiReCT:解耦对比正则化,让视频生成真正读懂物理定律
1. TL;DR
2. 痛点深挖:为什么 AI 视频总是“不讲物理”?
3. 核心方法:DiReCT 的双尺度“炼金术”
3.1. 1. 宏观对比 (Macro-Contrastive, MaNS)
3.2. 2. 微观对比 (Micro-Contrastive, MiNS) —— 核心创新
4. 实验结果:小参数也能“智取”大模型
5. 可视化分析:谁更懂物理?
6. 总结与洞察