Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding

[CVPR 2026] Symphony：认知启发的多智能体系统，重定义长视频深度理解

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Symphony，一种受认知科学启发的长视频理解（LVU）多智能体系统。该系统通过将复杂任务拆解为规划、定位、字幕和视觉感知等专业智能体，并引入基于反思的协同机制，在 LVBench 和 VideoMME 等多个长视频基准测试上刷新了 SOTA 记录。

TL;DR

长视频理解（Long-form Video Understanding, LVU）一直是 AI 领域的硬骨头。本文提出的 Symphony 系统放弃了传统的单体模型“通吃”方案，而是借鉴人类认知心理学，通过多个专业智能体（Agent）的“交响乐式”协作，在 LVBench 等顶尖榜单上实现了 5% 以上的跨越式性能提升。

痛点深挖：为什么长视频这么难？

目前的 MLLM（多模态大模型）在面对长视频时，通常会遇到两个“天花板”：

推理容量崩溃：随着视频时长增加，信息密度呈指数级上升，单智能体往往无法维持长达几十步的逻辑推导，容易出现“迷失在中间（Lost in the middle）”的现象。
定位失效：传统的检索方法（如 CLIP-based RAG）通过简单的语义匹配找片段。但如果问题是“视频中桌子旁边垃圾桶上方的红字是什么？”，这种含糊且具多步关联的查询，传统方法很难找准位置。

核心架构：认知维度的“功能解耦”

Symphony 的直觉非常清晰：模仿人类处理信息的逻辑。它将系统拆分为五个核心角色：

Planning Agent（大脑）：负责全局规划和任务分发。
Grounding Agent（注意力）：利用 LLM 拆解复杂意图，再用 VLM 进行精细化的相关性打分（1-4分制）。
Visual Perception Agent（视觉中心）：提供全局摘要、帧检查器和跨片段分析工具。
Subtitle Agent（语言中心）：专注文本语义，降低长视频上下文对主模型的压力。
Reflection Agent（自我监督）：这是系统的灵魂，负责评估推理路径。如果发现证据不足，它会开出“诊断书”（Critique），要求 Planning Agent 重新探索。

模型架构图 图 1：(a) 单智能体推理受限，(b) Symphony 通过多智能体功能协作突破上限

深度逻辑：反思增强的协作机制

Symphony 采用了类似强化学习中 Actor-Critic 的框架。

Forward Stage：规划智能体不断调用定位、视觉和字幕工具，积累证据。
Reflection Stage：反思智能体对整条推理轨迹 $a u$ 进行审视。如果认为逻辑不通，它会指出：“你虽然关注了片段 A，但忽略了片段 B 中红字的上下文关联。” 这种循环保证了系统不会因为一次错误的工具调用而导致满盘皆输。

推理流程图 图 2：Symphony 的反思增强型动态推理框架

实验与结果：全线碾压

在包含平均时长 68 分钟视频的 LVBench 测试中，Symphony 在实体识别（ER）、**事件理解（EU）和推理（Rea）**等维度均表现出色。

关键战绩：

超越 GPT-4o：在长视频综合任务中表现远超目前最强的闭源商用模型。
高性价比：通过引入 DeepSeek 系列等国产优秀大模型进行功能特化，在性能更强的同时，每条查询的成本从 0.213 美元降至 0.124 美元。

实验结果对比 表 1：四大主流长视频基准测试的性能对比，Symphony 全方位领先

深度洞察与总结 (Critical Analysis)

Symphony 的成功不仅仅是“人多力量大”。

其本质提升在于 能力维度的解耦。强制让主模型只负责逻辑，视觉模型只负责感知，有效缓解了大模型在处理长时序视频时的“认知过载”。
定位逻辑的革新：通过“LLM 意图识别 + VLM 细颗粒度评分”取代简单的“CLIP 向量检索”，解决了隐含信息难找的问题。

局限性： 尽管引入了并行评分机制，但面对超长视频（如数小时）时，多智能体之间的多轮对话仍会带来一定的推理延迟。

未来展望： 随着 Verifier's Law（验证定律）的深入应用，Symphony 这种“生成-验证-修正”的 Agent 范式很可能会成为未来处理视频、文档等一切长文本任务的标准架构。

Find Similar Papers

Try Our Examples

查找最近一年内利用多智能体系统（MAS）解决长视频语义理解（LVU）难题的其他相关论文。
探究“反思增强（Reflection-enhanced）”或“Actor-Critic 架构”在多模态语言模型智能体（MLLM Agents）中的起源与最新改进。
分析将类似 Symphony 的功能级任务分解策略应用到长文本处理或复杂具身智能任务中的可行性研究。

Contents

[CVPR 2026] Symphony：认知启发的多智能体系统，重定义长视频深度理解

1. TL;DR

2. 痛点深挖：为什么长视频这么难？

3. 核心架构：认知维度的“功能解耦”

4. 深度逻辑：反思增强的协作机制

5. 实验与结果：全线碾压

6. 深度洞察与总结 (Critical Analysis)