DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation

[CVPR 2026] DiReCT：解耦对比正则化，让视频生成真正读懂物理定律

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DiReCT，一种针对流匹配 (Flow-matching) 视频生成模型的轻量级后期训练框架。通过引入解耦的对比正则化机制，该方法在不增加推理成本的前提下，显著提升了生成视频的物理常识一致性，在 WorldModelBench 榜单上超越了参数量大其数倍的模型。

TL;DR

尽管当前的视频生成模型（如 Sora, Wan 2.1）能拍出电影级大片，但它们经常让球穿过墙壁、让水向上流。本文提出的 DiReCT 框架通过一种巧妙的“找茬”式对比学习——即解耦对比正则化 (Disentangled Regularization of Contrastive Trajectories)，在不增加模型规模的情况下，大幅强化了视频生成的物理真实性，刷新了多项物理评测榜单。

痛点深挖：为什么 AI 视频总是“不讲物理”？

目前的主流模型大多基于流匹配 (Flow-matching) 架构。其训练目标是回归每帧之间的“速度场”。但问题在于：

平均律陷阱：当模型遇到相似的描述时，它倾向于学习一种“平均速度”，导致动作变得平庸且模糊，失去了精准的物理碰撞或加速细节。
语义与物理的纠缠 (Semantic-Physics Entanglement)：在文本提示词中，“一辆车在开”和“一辆车撞墙”语义极度接近，模型很难仅仅通过重建损失分辨出哪种轨迹是符合物理逻辑的。
梯度冲突：之前的对比学习方法（如 $\Delta$FM）随机选取负样本。但在视频领域，如果负样本语义太接近，对比梯度会直接与重建梯度“打架”，导致画面质量崩坏。

核心方法：DiReCT 的双尺度“炼金术”

为了解决上述冲突，作者提出了 DiReCT，它通过两个尺度的对比来强制模型区分物理轨迹：

1. 宏观对比 (Macro-Contrastive, MaNS)

利用语义聚类，强行拉开不同类别场景之间的距离。例如，生成“奔跑的人”时，绝对不拿“走路的人”做对比，而是拿“流动的云”做负样本。这确保了梯度是协同的，建立了全局的速度场结构。

2. 微观对比 (Micro-Contrastive, MiNS) —— 核心创新

这是本文的精华。作者利用 LLM（如 Qwen2.5）对物理规律进行粒子级“投毒”。

方法：保持场景描述完全一致，仅修改一个物理参数（如：将“弹性碰撞”改为“穿透”）。
效果：这创造了极难分辨的“硬负样本”。模型被迫在语义几乎相同的空间里，学会识别哪怕极其细微的物理违背（如重力加速度不对、材质硬度不对）。

模型架构与物理扰动示意图 上图展示了 5 种物理扰动维度：动力学、力学、材质、交互、量级。

实验结果：小参数也能“智取”大模型

实验数据令人振奋。DiReCT 在仅有 1.3B 参数的情况下，在物理评测集 WorldModelBench 上的表现竟然超过了 10B 规模的 Mochi 和 5B 规模的 CogVideoX。

| 模型 | 参数量 | WorldModelBench 总分 (↑) | | :--- | :--- | :--- | | CogVideoX-5B | 5B | 5.33 | | Mochi-1 | 10B | 4.91 | | DiReCT (Ours) | 1.3B | 5.68 |

实验结果对比 训练曲线显示：传统的 SFT（有监督微调）很快会陷入停滞，而 DiReCT 的物理感知信号能支撑模型持续进化。

可视化分析：谁更懂物理？

在对比图中可以明显看到：

基线模型（如 LTX, CogVideoX）：饼干浸入咖啡时会像液体一样溶化，或者勺子搅拌时直接穿过容器壁。
DiReCT：物体保持了良好的结构完整性，搅拌和碰撞动作完全符合现实直觉。

定性对比图

总结与洞察

DiReCT 的成功告诉我们：视频生成模型的未来不在于无脑堆算力，而在于“高质量的裁判”。通过解耦语义与物理，并利用 LLM 生成精准的物理负反馈，我们可以在极小的模型代价下，获得极大的物理逻辑提升。

局限性：目前该方法依赖离线生成的视频作为负样本，且对 LLM 扰动提示词的质量有依赖。未来如果能实现端到端的实时物理梯度回传，视频生成将真正具备“世界模型”的潜质。

Find Similar Papers

Try Our Examples

查找最近其他尝试解决视频生成模型中物理规律违背问题（Physical Law Violation）的论文，特别是涉及合成物理数据（Synthetic Physics Data）的方法。
哪篇论文最早提出了对比流匹配（Contrastive Flow Matching, ΔFM），本文在分析梯度冲突（Gradient Conflict）方面对其理论做了哪些核心扩展？
有哪些研究探讨了将大语言模型（LLM）作为视频生成训练中的“物理扰动器”或“自动化评估器”的类似应用？

Contents

[CVPR 2026] DiReCT：解耦对比正则化，让视频生成真正读懂物理定律

1. TL;DR

2. 痛点深挖：为什么 AI 视频总是“不讲物理”？

3. 核心方法：DiReCT 的双尺度“炼金术”

3.1. 1. 宏观对比 (Macro-Contrastive, MaNS)

3.2. 2. 微观对比 (Micro-Contrastive, MiNS) —— 核心创新

4. 实验结果：小参数也能“智取”大模型

5. 可视化分析：谁更懂物理？

6. 总结与洞察