WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026] Infinite Gaze: 自回归扩散模型下的无限时界视频注视生成
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了一个基于自回归扩散模型 (Autoregressive Diffusion) 的生成框架,用于在任意长度的视频中合成无限时界的原始人类注视轨迹 (Infinite-horizon Gaze)。该方法通过显著性感知潜空间 (Saliency-aware Latent Space) 进行调节,在长程时空准确性和轨迹真实感上达到了 SOTA 水平。

TL;DR

本文提出了一种能够为任意长度视频生成连续、真实注视轨迹(Raw Gaze Trajectories)的生成式框架。通过结合自回归(Autoregressive)机制扩散模型(Diffusion Models),并辅以**显著性感知(Saliency-aware)**的潜空间压缩技术,该模型突破了现有方法在时间长度(仅3-5s)和动态精细度上的瓶颈。

背景定位:这是首个专注于长序列、高频视频注视数据生成的模型,属于“生成式行为建模”与“世界模型 (World Models)”的交叉前沿工作。

痛点深挖:为何长视频注视预测这么难?

  1. 数据抽象过度:传统 Saliency Map 只有空间分布,Scanpath 只有离散落点。它们都无法描述人类在看视频时特有的平滑追踪 (Smooth Pursuit) 和高频抖动。
  2. 时界受限:现有模型多为“快照”式预测。一旦视频超过几秒,由于缺乏历史状态维护,生成的轨迹会迅速发生漂移或产生不自然的跳变。
  3. 计算冗余:视频的 RGB 信息量巨大。直接将全量视频帧喂给扩散模型会导致推理速度极慢,且难以提取出对“注视行为”真正有用的特征。

核心方法:自回归扩散与显著性引导

作者认为,人类的目光移动不仅受当前画面的视觉冲击(底向上)驱动,也受到历史观察逻辑(顶向下)的约束。

1. 架构构建

模型采用了基于 U-Net 的 1D 卷积扩散骨架。为了处理无限长的视频,作者引入了注视缓存 (Gaze Cache) 机制:

  • 训练阶段:随机选取 个真实坐标作为前缀,预测后续序列,仅对预测段计算 Loss。
  • 推理阶段:采用滑动窗口,将上一步生成的 个坐标作为 Condition,循环往复实现“无限”生成。

模型架构图 图 1:模型总体架构。注意中间的 Saliency Encoder 负责将视频压缩为高效的潜在表征。

2. 显著性感知潜空间 (Saliency-aware Latent)

这是本文的 Insight 所在:与其让模型从原始像素中学习“哪里吸引人”,不如直接利用成熟的显著性模型(如 UNISAL)作为先验。作者设计了一个带有瓶颈层(Bottleneck)的编码器,将 RNN 通道从 256 压缩至 64,并进行空间池化。实验证明,这种显著性特征比通用的视觉特征(如 MAGVIT2 token)更易于模型收敛。

实验与结果:全方位的领先

研究团队在 DIEM 和 DHF1K 两个大型视频数据集上进行了验证。

  • 定量分析:在反映时空对齐准确性的 DTW (Dynamic Time Warping) 指标上,本方法大幅领先于 DiffEye 和 GazeFormer(如表 1 所示)。
  • 定性可视化:从生成的轨迹图可以看出,本方法的路径(彩色线)与人类真实路径(黑线)高度重合,且轨迹平滑,没有基线方法中常见的“瞬移”现象。

实验结果对比 图 2:轨迹可视化对比。可以看出本方法生成的路径在时空分布上与 Ground Truth 极度接近。

深度洞察:迈向行为辅助的世界模型

本项研究最令人兴奋的启示在于:注视数据是人类与物理世界交互的最直接“信号”

以往的世界模型(如 Sora)侧重于像素生成的物理真实性,但缺乏对“人类如何观察这个世界”的理解。本文的工作填补了这一空白。通过模拟人类的注意分配,未来的 AI 智能体可以更好地预测人类的意图,或在 VR/AR 领域实现更自然的注视点渲染(Foveated Rendering)。

局限性与挑战

  • 长程语义依赖:目前的自回归仍基于固定窗口,对于跨越数十秒的复杂语义记忆(例如:寻找视频开头出现过的一个特定角色)仍有提升空间。
  • 头部运动耦合:目前的实验主要针对桌面观看场景。在真实的 3D 环境中,眼球运动与头部转动是耦合的,这将是未来的重要研究方向。

总结

Infinite Gaze Generation 成功证明了自回归扩散模型是处理复杂、长程人类行为序列的有力工具。它不仅在技术指标上刷新了 SOTA,更在方法论上为“行为感知型 AI”提供了新的思路。

Find Similar Papers

Try Our Examples

  • 查找其他利用扩散模型 (Diffusion Models) 生成连续人类运动或行为轨迹(如步态、手势轨迹)的最新论文。
  • 哪篇论文最早提出了 Diffusion Forcing 框架,本文在自回归处理变长序列时是如何借鉴其稳定训练机制的?
  • 有哪些研究探讨了将显著性图 (Saliency Maps) 作为多模态大规模模型(如 LLM/VLM)的输入增强,以提高模型对动态场景的注意力对齐?
Contents
[CVPR 2026] Infinite Gaze: 自回归扩散模型下的无限时界视频注视生成
1. TL;DR
2. 痛点深挖:为何长视频注视预测这么难?
3. 核心方法:自回归扩散与显著性引导
3.1. 1. 架构构建
3.2. 2. 显著性感知潜空间 (Saliency-aware Latent)
4. 实验与结果:全方位的领先
5. 深度洞察:迈向行为辅助的世界模型
5.1. 局限性与挑战
6. 总结