本文提出了 ViterbiPlanNet,这是一个用于教学视频过程规划(Procedural Planning)的轻量级框架。该方法通过引入可微维特比层(Differentiable Viterbi Layer, DVL),将显式的过程知识图谱(PKG)集成到端到端训练中,在参数量缩减 2-3 个数量级的前提下,在 CrossTask 等三大数据集上达到了 SOTA 性能。
TL;DR
在教学视频中进行过程规划(从“起始图”预测到“终点图”所需的动作序列)一直是 AI 助手的核心挑战。本文提出的 ViterbiPlanNet 另辟蹊径,抛弃了盲目堆砌参数的暴力美学,通过一个魔改的 可微维特比层 (Differentiable Viterbi Layer),将人类的先验知识(过程知识图谱)直接塞进了神经网络的梯度循环里。结果令人惊叹:模型小了 100 倍,性能却显著超越了那些动辄几十亿参数的 Diffusion 和 LLM 方案。
痛点深挖:隐式学习的局限
目前的 SOTA 方法(如 PDPP, PlanLLM)通常把过程规划看作一个黑盒序列生成任务。它们假定模型只要看的图够多,就能在大脑(参数)里记下“做三明治必须先放面包”这种逻辑。
但这带来了三个问题:
- 数据饥渴:模型需要极大量的样本来“内化”这些简单的常识。
- 逻辑幻觉:在长序列或未见过的场景下,模型经常生成物理上不可能实现的动作(比如还没切洋葱就开始炒洋葱)。
- 端到端脱节:虽然前人也尝试用 Viterbi 算法纠错,但那只是“事后补救”(后处理),模型在训练时并不知道图谱的存在。
核心直觉:让图谱参与“进化”
作者认为,模型不应该费力去记“动作 A 后面跟着动作 B”,这应该是图谱(PKG)的工作。神经网络只需要干好一件事:判断当前的画面看起来像哪个动作(即发射概率 Emission)。
1. 架构解析
ViterbiPlanNet 的核心在于其四阶段流程:知识编码 -> 视觉特征提取 -> 发射概率预测 -> 结构化解码。
图 1:ViterbiPlanNet 总体架构。可见 DVL 层接收发射概率 和预定义的 PKG,输出软规划(Soft Plan)。
2. 关键创新:Differentiable Viterbi Layer (DVL)
传统的 Viterbi 包含大量的 max 和 argmax 操作,这些操作在数学上是不可微的。作者采用了 log-sum-exp (S-max) 和 softmax (S-argmax) 的平滑松弛方案:
- S-max:允许累积得分在反向传播中传递。
- Soft Backpointer:不再选一个死板的路径,而是维护一个关于所有可能前驱动作的概率分布。
这种设计使得损失函数(MSE Loss)生成的梯度可以直接穿过解码层,告诉前端的视觉编码器:“你预测的这个动作虽然视觉上像,但在逻辑图谱里走不通,请修正你的表征!”
实验战绩:以小博大的典型
研究团队在 CrossTask, COIN 和 NIV 三个高难度数据集上进行了地毯式对比。
1. 样本效率与参数量
在仅有 5% 训练数据时,ViterbiPlanNet 的表现就已逼近竞品在使用 100% 数据时的水平。
图 2:展现了 ViterbiPlanNet 极高的样本效率,随数据增加性能提升稳健。
2. 跨时段一致性 (Cross-Horizon Consistency)
这是本文最惊艳的发现。如果在 T=6(长规划)上训练,去测试 T=3(短规划),绝大多数 SOTA 模型都会崩溃,因为它们记住了特定的步长。而 ViterbiPlanNet 因为学到的是底层的发射概率和通用的图谱逻辑,其 SR 表现竟然比强大的 Gemini 2.5 Pro 还要高出 8 个百分点。
深度洞察:发射概率的“解耦”
定性分析显示(图 5),普通模型为了强行拟合序列,会将转移逻辑“硬编码”到单步预测里(预测结果显得非常死板且鲁棒性差)。而 ViterbiPlanNet 的发射概率分布更加平滑且与图谱解耦。
图 3:Base Model 倾向于记忆图谱,而 ViterbiPlanNet 生成的发射概率更加纯粹,将结构约束留给 DVL 处理。
总结与局限
ViterbiPlanNet 证明了显式结构化知识在视频理解中的巨大威力。它告诉我们:与其让模型在茫茫参数中大海捞针式地学习逻辑,不如给梯度指明一条有约束的康庄大道。
局限性:
- 依赖于预先构建的 PKG(虽然作者证明了对噪声有一定鲁棒性)。
- 目前仍处于离线规划阶段,如何将其转化为实时的、带闭环反馈(Reactive Planning)的在线助手,是未来的重要课题。
本文由资深学术技术主编重构。原论文:ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos.
