WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] SDRL:打破 SFT 依赖,结构化强化学习重塑视频深度推理
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Summary-Driven Reinforcement Learning (SDRL),这是一种针对视频理解任务的单阶段强化学习框架。该方法通过引入名为“Summarize → Think → Answer”的结构化 Chain-of-Thought (CoT) 范式,在无需 Supervised Fine-Tuning (SFT) 的情况下,显著提升了多模态大模型的时序逻辑和事实对齐能力,在七个主流 VideoQA 基准测试中达到 SOTA。

TL;DR

在视频理解领域,让模型“想清楚再说话”一直是个难题。传统的强化学习(RL)容易让模型产生胡言乱语(思维漂移),而依赖人工标注的 SFT 又太贵且呆板。亚马逊与石溪大学的研究者提出了 SDRL,通过一个简单的公式:总结 (Summarize) → 思考 (Think) → 回答 (Answer),配合自监督的约束机制,让模型在没有人工干预的情况下,自己学会了严谨的时序逻辑。

痛点深挖:为什么视频推理总是“想偏了”?

当前的 MLLM 在处理视频 QA 时,常表现出两种病态:

  1. 思维漂移 (Thinking Drift):模型可能最后猜对了答案,但在 <think> 标签里的推理过程完全是南辕北辙,或者堆砌无关辞藻。
  2. 时序盲区:由于缺乏显式的动作序列建模,模型经常分不清“先敲门再进屋”和“先进屋再敲门”的区别。

以往的解决方案(如 Video-R1)通常需要先用大量人工标注的 CoT 数据做 SFT,然后再跑 RL。但这不仅成本高,还会让模型陷入“死记硬背”标注路径的陷阱。

方法论详解:SDRL 的结构化之美

SDRL 的核心思想是:与其教模型怎么做,不如给它一个正确的思考结构。

1. 结构化 CoT 范式

模型必须遵循 Summarize → Think → Answer 的拓扑结构。

  • Summary:作为事实锚点,强制模型先梳理视频中的关键动作序列。
  • Think:在事实基础上进行逻辑推演。
  • Answer:得出最终结论。

模型架构图

2. 两大自监督利器

为了训练这个结构,SDRL 在 GRPO(基准组相对策略优化)中加入了两个调节权重:

  • 视觉知识一致性 (CVK):直觉告诉我们,对于同一个视频,正确的总结应该是唯一的。CVK 通过计算组内多次采样结果的 KL 散度,惩罚那些偏离“共识中心”的总结,从而增强事实对齐。
  • 动态推理多样性 (DVR):推理路径不应千篇一律。SDRL 监测组内准确率,当模型表现不好时(Accuracy 低),增大熵权鼓励探索新路径;当表现已经很好时,减少干预以防引入噪声。

实验与结果:不仅更准,而且更“干练”

EventFlowQA 和其他七个基准测试中,SDRL 的战绩极为亮眼:

  • SOTA 性能:在 NExT-GQA 等逻辑强相关任务上,SDRL 显著优于 SFT+RL 的组合。
  • 极致效率:如下图所示,SDRL 生成的推理内容比 Video-R1 等模型短得多,但准确率更高。这意味着模型学会了“精炼事实”,而非“无效思考”。

实验结果对比

深度洞察:RL 的未来是“过程自对齐”

SDRL 的成功揭示了一个重要趋势:大模型推理的对齐不一定需要外部标注。 通过在损失函数中注入关于“什么是好的推理结构”(一致性、多样性、层次化)的 Inductive Bias,我们可以让模型在自我博弈中进化出更强的事实 grounding 能力。

然而,SDRL 也有其局限性。在面对极其密集的微小动作(如快速洗牌)时,模型生成的总结仍显粗糙。未来的方向将是如何将更细粒度的视觉特征(如动作边界检测)与这种 RL 框架进行深层融合。

总结 (Takeaway):SDRL 证明了单阶段 RL 配合精准的结构权重调控,是实现高效、事实性视频推理的最优解之一。

Find Similar Papers

Try Our Examples

  • 查找最近其他试图通过结构化推理模板或过程奖励模型 (PRM) 来解决多模态大模型思维漂移问题的论文。
  • 哪篇论文最早提出了 Group Relative Policy Optimization (GRPO) 算法,本文是如何将其从纯文本推理扩展到视频时序对齐任务的?
  • 有哪些研究探讨了在自监督强化学习中,如何平衡生成内容的一致性(Consistency)与多样性(Diversity)之间的冲突?
Contents
[CVPR 2026] SDRL:打破 SFT 依赖,结构化强化学习重塑视频深度推理
1. TL;DR
2. 痛点深挖:为什么视频推理总是“想偏了”?
3. 方法论详解:SDRL 的结构化之美
3.1. 1. 结构化 CoT 范式
3.2. 2. 两大自监督利器
4. 实验与结果:不仅更准,而且更“干练”
5. 深度洞察:RL 的未来是“过程自对齐”