Video-CoE: Reinforcing Video Event Prediction via Chain of Events

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

[CVPR 2024] Video-CoE：让 MLLM 拥有“预知未来”的逻辑视野

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Video-CoE，一个专为视频事件预测（VEP）设计的 Chain of Events 范式。通过构建细粒度的时序事件链并结合两阶段训练（CoE-SFT 和 CoE-GRPO），在 FutureBench 和 AVEP 等基准测试中超越了 GPT-4o 和 Qwen2.5-VL-72B，刷新了 SOTA 纪录。

TL;DR

预测视频中下一步会发生什么是计算机视觉的圣杯任务。阿里巴巴 AMAP 团队发现，即便最强的 MLLM（如 GPT-4o）在视频事件预测（VEP）上也经常“翻车”。本文提出的 Video-CoE (Chain of Events) 范式，通过强制模型先梳理事件线索再做预测，配合创新的强化学习奖励机制，让模型不再瞎猜，预测准确率暴涨 20% 以上。

1. 痛点：为什么 MLLM 是“近视眼”且“爱走捷径”？

在自动驾驶、安防预警等场景中，Video Event Prediction (VEP) 至关重要。但作者通过对 Qwen, Kimi, GPT 等主流模型的系统评估发现，MLLM 在此任务上表现糟糕，原因有二：

视觉冷落 (Visual Bias)：实验证明，模型在做选择时，对视觉 Token 的注意力权重远低于文本 Token。相比理解视频，它们更喜欢从题目文字中寻找“听起来合理”的答案。
因果断层：现有的 SFT 数据（如选项分析）没有教会模型如何建立“当前观测”到“未见未来”之间的逻辑链路。

MLLM 在 VEP 任务中的典型失败案例

2. Methodology：打造“事件链”逻辑

为了解决上述问题，Video-CoE 引入了 Chain of Events (CoE) 范式。

核心直觉

既然模型不看视频，那就通过任务定义强迫它看。模型必须输出 Event = <event> Time: [start-end], Des: [description] </event> 格式的内容，形成一个有时序、有语义的事件链（EC）。

两阶段强化：SFT + GRPO

CoE-SFT (逻辑热身)：利用目前最强的 Qwen2.5-VL-72B 生成高质量的逻辑推理链数据，训练模型如何从已知视频内容推导出未来事件，解决“冷启动”问题。
CoE-GRPO (能力解锁)：这是本文的神来之笔。借鉴了 DeepSeek-R1 的逻辑，作者设计了三种奖励激励模型：
1. 准确性奖励 (ra)：猜对了给分。
2. 格式奖励 (re)：按要求的 <event> 标签输出、控制长度给分。
3. 相似度奖励 (rs)：最为关键。利用 VideoCLIP 或 CLIP 模型计算模型生成的描述与对应时间戳视频切片的余弦相似度。这从底层杜绝了奖励作弊（Reward Hacking），强制模型生成的每一句描述都必须与视频画面对得上。

Video-CoE 的 GRPO 训练流程示意图

3. 实验战绩：全线超越 GPT-4o

在 FutureBench 和 AVEP 两个主流榜单上，Video-CoE 展现了统治级的实力：

性能飞跃：在 Qwen2.5-VL-7B 基础上，Video-CoE 将 FutureBench 的 AVG 分数从 52.94 提升到了 75.00，甚至超越了 72B 规模的模型和 GPT-4o。
视觉回流：注意力分析显示，CoE 显著提升了模型对视觉 Token 的关注度（Winning Rate 达到 77% 以上），证明模型确实在通过“看”视频来推断未来。

不同规模模型在 FutureBench 上的性能对比表

4. 深度洞察：为什么这种范式有效？

Video-CoE 的成功在于它改变了 MLLM 处理时序信息的方式。传统的模型是“全量吞入、模糊输出”，而 CoE 将长视频解析为离散的符号化事件。

相似度奖励 (Similarity Reward) 的引入解决了 MLLM 训练中最头疼的内容对齐问题。通过强制模型提取时间戳并做内容对齐，它无意中增强了模型的时序定位 (Temporal Localization) 能力。即使在 Open-set（无选项直解）的情况下，Video-CoE 的胜率依然遥遥领先。

5. 总结与反思

Video-CoE 证明了：逻辑推理不是空中楼阁，它必须扎根于细粒度的感知之上。

局限性：目前事件链的结构还比较单一（线性结构），未来如果能扩展到复杂的事件图（Event Graph）或引入因果推断（Causal Inference），MLLM 在动态世界中的理解能力将再上一个台阶。

主编点评 scale 虽然是 LLM 的第一驱动力，但在特定细分任务中，精妙的逻辑引导（Inductive Bias）和多重对齐的强化学习反馈，依然能产生“以小博大”的奇迹。

Find Similar Papers

Try Our Examples

查找最近一年关于利用强化学习（RL/GRPO）提升多模态大模型时序定位与逻辑推理能力的 SOTA 论文。
哪篇论文最早在自然语言处理中提出了“事件链”（Event Chains）用于预测任务，Video-CoE 是如何将其从文本域迁移到视频域并解决模态偏差的？
有哪些研究关注于评估 MLLM 在处理长视频理解时的视觉与文本 Token 注意力分布不均（Text-centric modality bias）问题？

Contents

[CVPR 2024] Video-CoE：让 MLLM 拥有“预知未来”的逻辑视野

1. TL;DR

2. 1. 痛点：为什么 MLLM 是“近视眼”且“爱走捷径”？

3. 2. Methodology：打造“事件链”逻辑

3.1. 核心直觉

3.2. 两阶段强化：SFT + GRPO

4. 3. 实验战绩：全线超越 GPT-4o

5. 4. 深度洞察：为什么这种范式有效？

6. 5. 总结与反思