OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

[CVPR 2026] OmniStream：统一流式视觉 Backbone，打通感知、几何重构与具身智能

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 OmniStream，这是一个统一的流式视觉主轴网络（Backbone），通过集成因果时空注意力和 3D 旋转位置编码（3D-RoPE），实现了对视频流的实时、逐帧在线处理。该模型在 29 个数据集上通过多任务预训练，在保持主轴参数冻结的情况下，在感知、3D 重建和机器人动作控制（VLA）等多项任务中达到了 SOTA 或具竞争力的表现。

TL;DR

OmniStream 是一项雄心勃勃的研究，它试图终结视觉领域“模型碎片化”的局面。通过向强大的图像 ViT 注入因果时空注意力和 3D-RoPE，OmniStream 构建了一个能够实时处理视频流的统一主轴。它不仅在传统的语义识别上表现强劲，更原生支持在线 3D 重建和机器人动作控制。最令人振奋的是，即使完全冻结 Backbone，其在具身智能任务上的表现也直接挑战了领域专家的地位。

1. 痛点深挖：割裂的视觉世界

目前视觉 AI 领域存在一个明显的“柏林墙”：

语义专家（如 CLIP, DINO）：看懂了是什么，但对空间深度和物体运动迟钝。
几何专家（如 DepthAnything, DUSt3R）：能精准建模 3D 空间，但不知道这些物体组合起来的语义内涵。
训练范式：大多是“离线”的。给模型一段切好的视频剪辑，它能处理；但给它摄像头源源不断的实时流，它往往因为内存爆炸（计算复杂度二次方增长）或缺乏因果逻辑而宣告失败。

2. 核心机制：让 ViT 拥有“时空流”能力

要让模型能够像生物一样“在线采样”，作者对架构进行了手术级改造：

2.1 因果时空注意力 (Causal Spatiotemporal Attention)

为了满足实时响应和低内存占用，OmniStream 引入了因果掩码（Causal Mask）。每一帧只能看到过去和现在，不能看未来。

优势：支持 KV-cache。当新的一帧进来时，过去帧的计算结果已经存在缓存里，无需像传统模型那样对整段序列进行重计算（Recomputation），推理速度提升了 15 倍。

2.2 3D Rotary Positional Embeddings (3D-RoPE)

模型如何知道“现在的左边”和“一秒前的左边”是同一个物理位置？作者将 2D RoPE 扩展到 3D 空间，通过在特征维度上按比例分配 (t, y, x) 坐标，让模型在潜空间中天生具备时空相对位置感。这使得 OmniStream 具有极强的长度外推能力——即使只在 16 帧长的序列上训练，测试时也能稳健处理超过 110 帧的长流。

模型架构图

3. 协同进化：三位一体的预训练

OmniStream 的强大源于其独特的任务组合策略（Loss Function）：

静态与时间蒸馏 (SSL)：通过 DINO-style 学习通用的语义特征；
流式几何重建 (Geo)：通过预测深度图（Depth）和相机位姿（Camera Pose），强行在特征中注入物理接地性；
视觉语言对齐 (VLA)：通过轻量级解码器学习字幕和定位，确保特征能被大模型（LLM）听懂。

实验证明，这三者是协同增益的。去掉几何任务，模型在机器人控制上会立刻“抓瞎”；去掉对齐任务，模型就无法完成复杂的长视频问答。

4. 关键战绩：跨维度的打击

OmniStream 的实验结果可以用“全能选手”来形容。

4.1 在线 3D 重建

相比于专门的在线 3D 重建模型（如 CUT3R），OmniStream 在 Sintel 和 ScanNet 等多个基准测试中，凭借单主轴网络实现了更低的深度误差和位姿漂移。

实验结果对比

4.2 具身智能 (Embodied AI)

这是本文最出彩的地方。在 CALVIN 机器人操纵任务中，OmniStream 在视觉特征完全不微调的情况下，成功率超越了专门设计的机器人模型（如 OpenVLA）。这说明其特征中已经包含了动作控制所需的深度、运动和语义线索。

5. 深度洞察与总结

OmniStream 的成功标志着视觉基础模型（VFM）正在从“看图说话”迈向“模拟器思维”。

它的局限性：虽然全能，但在单一特定任务（如 ImageNet 纯分类）上，相比最顶尖的领域专家仍有细微差距。
未来展望：这种“统一且流式”的架构非常适合集成到下一代 AR 眼镜或家庭服务机器人中。当视觉主轴可以像呼吸一样自然、因果地处理每一帧画面，通用人工智能（AGI）的视觉感知基石也就此夯实。

Takeaway：不要再为每个任务训练一个模型了。一个具备物理常识、因果逻辑和语义对齐的流式主轴，才是通往真实物理世界的钥匙。

Find Similar Papers

Try Our Examples

查找最近其他试图在视觉 Transformer 中引入因果掩码（Causal Mask）以实现流式在线推理的 SOTA 论文。
哪篇论文最早在视觉领域提出了 3D Rotary Positional Embeddings (3D-RoPE)，OmniStream 在其基础上做了哪些针对时空对齐的改进？
调研当前将冻结的视觉特征直接应用于 Vision-Language-Action (VLA) 模型训练的各种策略及其性能对比。

Contents

[CVPR 2026] OmniStream：统一流式视觉 Backbone，打通感知、几何重构与具身智能

1. TL;DR

2. 1. 痛点深挖：割裂的视觉世界

3. 2. 核心机制：让 ViT 拥有“时空流”能力

3.1. 2.1 因果时空注意力 (Causal Spatiotemporal Attention)

3.2. 2.2 3D Rotary Positional Embeddings (3D-RoPE)

4. 3. 协同进化：三位一体的预训练

5. 4. 关键战绩：跨维度的打击

5.1. 4.1 在线 3D 重建

5.2. 4.2 具身智能 (Embodied AI)

6. 5. 深度洞察与总结