Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

[arXiv 2025] Proact-VL：懂时机、低延迟，打造电竞级的 AI 游戏伴侣

总结

问题

方法

结果

要点

摘要

本文提出了 Proact-VL，一个专门为实时 AI 伴侣（如游戏解说和玩家指导）设计的原生主动式视频大模型（VideoLLM）。该框架通过分块处理（Chunk-wise）、轻量化主动响应机制以及专门的稳定性正则化训练策略，实现了在连续视频流输入下的低延迟、自主交互。

TL;DR

Proact-VL 是由微软与多家高校联合提出的实时主动式视频大模型。它通过分块输入 schema、轻量级决策头以及反向 RoPE 位置编码修正，解决了 AI 在长视频流中“自顾自说”或“反应迟钝”的问题，在游戏解说与实时指导任务中达到了媲美甚至超越 GPT-4o 的社交互动表现。

1. 社交伴侣的核心痛点：不仅要“懂”，更要“会闭嘴”

理想的 AI 伴侣应当像人类一样观察周遭环境，在精彩时刻振臂高呼，在沉闷时刻保持安静。然而，目前的 VideoLLM 普遍存在两个极端：

Offline/Proactive 型：触发一次就要生成一大段话，导致响应延迟高达数秒，等 AI 说完，游戏里的团战早结束了。
Streaming/Real-time 型：每秒都在机械式地输出，缺乏对话节奏感，用户体验极差。

Proact-VL 的核心动机在于：如何让模型在 1 秒级别的极短延迟内，自主判断当前画面是否值得“开金口”？

2. 核心架构：Chunk-wise 处理与主动决策

Proact-VL 采用了**分块式（Chunk-wise）**的处理逻辑，将视频流每秒切为一个切片。其输入构造非常有特色，包含历史背景（History）、当前视频（Video）和用户查询（Query）。

模型架构图 图 1：Proact-VL 整体工作流。每秒模型都会摄入多源 Token，并通过特殊的 <|FLAG|> 状态判断是否触发。

2.1 懂时机的“开关”：Response Head

模型在 User Message 末尾插入一个特殊的 <|FLAG|> Token。该 Token 的隐藏层状态会被输入到一个轻量级的 MLP 中，输出一个 0 到 1 之间的概率值 $p_{t}$ 。只有当 $p_{t}$ 超过阈值 $a u$ 时，模型才会真正开启 Assistant 模式进行文本生成；否则，输出一个代表沉默的占位符。

2.2 训练策略：稳定性是第一要务

为了让这个“开关”不反复横跳（Jittering），作者提出了两项关键损失函数：

Transition-smoothed Classification Loss：给状态切换（从沉默到说话，或反之）分配更高的权重 $γ$ ，强迫模型关注那些关键的转折点。
Stability Regularization：强制相邻时刻的概率平滑，并约束全局平均说话率，使其与人类解说的说话频率分布一致。

3. 实验表现：SOTA 级的实时解说

在作者构建的 Live Gaming Benchmark 中，Proact-VL 在多个维度展现了统治力。

实验结果对比 表 1：在单人解说（Solo）、多人协同解说（Co-Commentary）和游戏指导（Guidance）任务下的对比，Proact-VL 在文本质量（CC）和实时性指标上全面领先。

时效性：其 TimeDiff 极小，能够精准捕捉游戏中的高光时刻。
长文本稳定性：借助**反向 RoPE（Reverse-RoPE）**技术，模型在处理长达 2 小时的持续流媒体时，能够有效缓解位置编码漂移带来的性能下降。

4. 深度洞察：AI 伴侣的未来形态

Proact-VL 的成功在于它意识到：实时多模态交互不仅仅是一个生成任务，更是一个决策任务。

优势：它完美整合了 KV Cache 的高效管理与非语义化的决策指示符。
局限性：作者也坦诚，模型在处理需要高精度 OCR 的细节（如 LOL 右下角只有几个像素的经济差数字）时仍会发生幻觉。
启示：未来的 AI 伴侣将不再是等待指令的“语音助手”，而是具备环境感知力和社交直觉的“观察家”。

Proact-VL 的出现标志着视频大模型从“离线分析”向“原生流式交互”迈出了坚实的一步。

发现相似论文

试试这些示例

查找其他利用轻量级响应头（Response Head）而非 Token 生成来控制 LLM 交互时机的最新方法。
哪篇论文最早在流式视频理解中提出了 Chunk-wise 处理模式，本文在 KV Cache 管理上做了哪些针对性改进？
探究除了游戏解说领域，还有哪些实时多模态任务（如手术辅助或驾驶指导）应用了类似的主动式框架？

[arXiv 2025] Proact-VL：懂时机、低延迟，打造电竞级的 AI 游戏伴侣

1. TL;DR

2. 1. 社交伴侣的核心痛点：不仅要“懂”，更要“会闭嘴”

3. 2. 核心架构：Chunk-wise 处理与主动决策

3.1. 2.1 懂时机的“开关”：Response Head

3.2. 2.2 训练策略：稳定性是第一要务

4. 3. 实验表现：SOTA 级的实时解说

5. 4. 深度洞察：AI 伴侣的未来形态