Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

[CVPR 2026] Em-Garde：突破效率瓶颈，实现主动式流式视频理解的“思考与观察”解耦

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Em-Garde，一个专为主动式流式视频理解（Proactive Streaming Video Understanding）设计的“提议-匹配”（Propose-Match）框架。该框架通过将高层语义推理与底层流式感知解耦，实现了在保持高精度的同时，在 A100 GPU 上达到 10-15 fps 的实时处理速度。

TL;DR

在主动式视频理解（Proactive Video Understanding）任务中，模型不仅要看懂视频，还要“主动”在特定时刻（如运动员进球、水开、小孩跌倒）给出响应。传统的 VideoLLM 往往在每一帧都进行繁重的推理，导致要么跑不动，要么看不准。本文提出的 Em-Garde 框架，通过在指令下达瞬间先生成“视觉预案”（Proposals），再让轻量化模型在流式过程中进行“视觉比对”，成功打破了这一僵局，实现了 SOTA 精度与 15 fps 的丝滑体验。

背景定位

流式视频理解已从被动问答转向主动交互。然而，由于计算资源有限，现有的 SOTA 模型（如 VideoLLM-Online, StreamAgent）在处理超长视频流时，往往面临内存爆炸或决策滞后的问题。Em-Garde 属于架构创新类工作，它首次系统性地通过语义与感知的解耦，重新定义了主动响应任务的计算管线。

痛点与动机：为什么逐帧决策行不通？

现有的方法大多遵循“感知+推理+决策”同步进行的逻辑。每来一帧，模型都要问自己：“现在该说话吗？”

效率瓶颈：复杂的语义推理需要大规模参数支持，难以达到 5-10 fps 的工业级阈值。
上下文压力：随着视频变长，Context 越来越大，模型推理速度会线性下降。
信噪比低：大多数帧是无意义的，让庞大的 LLM 每一帧都参与计算是极大的浪费。

作者的 Insight：当用户说“水烧开时提醒我”时，大脑已经预见到了“剧烈气泡”或“大量蒸汽”等视觉信号。在流式观察时，由于目标已知，其实只需要进行简单的视觉模式匹配，而不再需要每秒进行几十次“语义思考”。

核心方法论：Em-Garde 的双塔解耦架构

Em-Garde 将流程分为两个互不干扰的阶段：

1. 指令引导提议解析器 (IGPP) —— “预见未来”

在接收到指令 I 时，由一个强大的全量 MLLM（如 Qwen2.5-VL）执行。它不直接观察流，而是根据指令和当前的简短视频背景，解析出多个具体的视觉提议（Visual Proposals）。

例如：指令是“提醒我不要让牛奶溢出来”，IGPP 会生成诸如“牛奶表面开始产生细小泡沫”、“液面迅速上升”等具体的视觉 cue。
强化学习优化 (RL)：作者发现 SFT 生成的提议往往太抽象。通过 GRPO 算法进行强化学习，模型学会生成“感知友好型”的提议，更易于被底层模块识别。

2. 轻量级提议匹配模块 (LPMM) —— “高效监视”

在流式环节中，仅使用一个超轻量级的 Embedding 模型（如 2B 规模）。

向量空间比对：将实时帧的 Embedding 与预存的 Proposals Embedding 计算余弦相似度。
突变检测：当相似度得分 $s_i$ 出现剧烈上升且超过阈值 $ heta$ 时，触发响应。

模型架构图 图 1：Em-Garde 框架概览，橙色部分为异步的高层语义解析，蓝色部分为高频流式匹配。

实验与结果

性能表现（Accuracy & Efficiency）

在 StreamingBench 和 OVO-Bench 两个主流基准测试中，Em-Garde 的表现令人印象深刻：

准确率：在 OVO-Bench 的 Forward Active Response 任务上，F1 分数相较于之前的 SOTA 提升了近 10%。
推理速度：如图 3/Figure 8 所示，虽然 MM-Duet2 等模型也有不错表现，但其延迟随时间激增；而 Em-Garde 的延迟几乎是常数级的，始终保持在 10-15 fps。

实验结果对比 表 1：在 OVO-Bench 上的性能对比，Em-Garde 在 CRR, SSR 等任务中全面领先。

消融实验：RL 的杀手锏

如图 4 所示，RL 训练后的 Proposals 更加务实。例如在识别斯诺克得分变化时，RL 之前的模型可能会关注“奥沙利文”整个人，而 RL 之后模型会精准锁定“比分板上的数字 24”，这种时间对齐性显著降低了误触发率。

深度洞察与总结

核心 takeaway：主动式视频理解的本质是预期（Anticipation）与验证（Verification）。Em-Garde 通过将预期（解析）与验证（匹配）分置于不同的时间尺度，完美解决了实时交互的算力矛盾。

局限性与展望：

负向提议（Negative Proposals）：目前模型在处理视觉相似但语义相反的场景时仍有挑战。
长程推理：目前的匹配是局部的，对于需要跨越数分钟视频进行逻辑推理的任务，仍需结合更强的记忆管理机制。

总之，Em-Garde 为具身智能（Embodied AI）助理和长视频监控提供了一个高度可落地的技术范式。

Find Similar Papers

Try Our Examples

查找最近其他采用“先解析后匹配”思路或解耦架构来解决大模型流式推理延迟问题的相关研究。
哪篇论文最早提出了在多模态检索中将复杂文本指令转化为多个原子级视觉特征（Visual Cues）的方法，本文的 IGPP 是如何改进这一过程的？
探索 RL 训练如何帮助视觉语言模型生成更容易被底层嵌入空间捕获的描述词，相关的奖励函数设计有哪些最佳实践？

Contents

[CVPR 2026] Em-Garde：突破效率瓶颈，实现主动式流式视频理解的“思考与观察”解耦

1. TL;DR

2. 背景定位

3. 痛点与动机：为什么逐帧决策行不通？

4. 核心方法论：Em-Garde 的双塔解耦架构

4.1. 1. 指令引导提议解析器 (IGPP) —— “预见未来”

4.2. 2. 轻量级提议匹配模块 (LPMM) —— “高效监视”

5. 实验与结果

5.1. 性能表现（Accuracy & Efficiency）

5.2. 消融实验：RL 的杀手锏

6. 深度洞察与总结