FASTER: Rethinking Real-Time Flow VLAs

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

FASTER: Rethinking Real-Time Flow VLAs

[CVPR 2026] FASTER：重新定义 VLA 实时反应速度，单步采样解锁高动态视觉导航

总结

问题

方法

结果

要点

摘要

本文提出了 FASTER，一种针对基于 Flow Matching 的视觉-语言-动作模型 (VLA) 的实时加速方案。通过引入“地平线感知调度”(Horizon-Aware Schedule, HAS) 和流式客户端-服务器架构，该方法实现了首个动作的单步采样生成，在保持长轨迹质量的同时将反应延迟降低了至多 10 倍。

TL;DR

在自动驾驶或机器人协作中，反应延迟（Reaction Latency）往往决定了部署的成败。香港大学的研究团队提出 FASTER (Fast Action Sampling for ImmediaTE Reaction)，通过一个简单的“时间步调度策略”和“流式传输管道”，让基于 Flow Matching 的 VLA 模型能够以 10 倍于以往的速度 响应环境变化。该方法无需重新设计架构，在 RTX 4060 等平民卡上也能让机器人玩起乒乓球。

1. 痛点：平滑但不敏捷的“反应盲区”

目前的 VLA 模型（如 $π_{0}$ 或 X-VLA）普遍采用 Action Chunking（动作分块）。虽然异步推理解决了动作间的停顿问题，使动作看起来“平滑”，但却带来了一个隐形的“盲区”：模型必须跑完完整的 $N$ 步迭代（通常 $N = 10$ ）才能生成第一个动作。

作者指出：反应时间 (Reaction Time) 应该是一个受推理频率和延迟共同决定的随机变量。在物理世界动态变化时，这种“必须等所有采样跑完”的机制成为了 reactivity 的死穴。

2. 核心直觉：近处的动作其实更简单

研究团队通过对 Flow Matching 轨迹的 Straightness (直线性) 实验发现（如下图所示）：动作块中靠前的帧（第 1-10 帧）其预测路径更直，偏离目标动作的方差更小。

这意味着：近期动作只需要更少的去噪步数就能达到足够的精度。

采样动力学实验分析 上图展示了动作索引越靠近当前时刻，其预测路径越接近线性。

3. 技术解法：Horizon-Aware Schedule (HAS)

FASTER 抛弃了传统的恒定时间步采样，引入了基于地平线的调度器。

非对称采样：对于 $t = 0$ 的即时动作，强制其在第 1 步采样时即达到“收敛状态”（Timestep 趋于 0）；对于远期动作，则允许其在后续步骤中缓慢优化。
流式接口：服务器不再等整个 Chunk 生成完再发包，而是“产出一个发一个”，让机器人控制器第一时间执行即时动作。
早停 (Early Stopping)：如果机器人只需要执行前 4 步动作，那么后 6 步采样直接跳过，极大地提高了控制循环频率。

FASTER 架构与调度方案 HAS 调度（下）对比恒定调度（上）：近期动作更早完成去噪。

4. 实验战绩：低算力平台的逆袭

在 RTX 4060 GPU 上，FASTER 取得了惊人的表现：

TTFA (首个动作时间)：相比原始 X-VLA 缩短了 3.09 倍。
乒乓球任务：在极高动态的对攻中，FASTER 能够让机器人提前调整球拍角度，而 Sync 或 Naive Async 方法由于反应过慢，球拍往往还未到位球已飞走。

真机实验对比 在 4090 和 4060 平台上的乒乓球成功率，FASTER 均大幅领先。

5. 总结与深度洞察

FASTER 的价值在于它识别并利用了 VLA 推理中的时间冗余。

即插即用：它不改动 VLM Backbone，只需要在 Fine-tuning 阶段加入 HAS 调度逻辑（算法 1），就能赋予旧模型新能力。
权衡之美：虽然极其激进的采样（如 1 步法）在仿真长任务中会有轻微的精度损失，但在现实世界的闭环控制中，反应速度提升带来的增益远超精度损失。

这篇论文向我们启示：Real-time AI 的核心不在于无限制地压榨算力，而在于将算力精准地分配给最迫切的需求（即时反击）。

注：文中各组件如 HAS 需配合 Mixed Schedule 训练以提升鲁棒性。相关代码已在 HKU ACE Robotics 开源。

发现相似论文

试试这些示例

查找最近一年内除了 FASTER 之外，还有哪些论文利用了 Action Chunk 内部的时间依赖性或非均匀性来加速训练或推理？
哪篇论文最早在生成模型中提出了类似 Horizon-Aware Schedule 的非对称时间步调度概念，本文在机器人控制领域对其做了哪些适配？
目前有哪些研究尝试将 FASTER 这种流式输出机制应用到基于 Transformer 类（如 OpenVLA）而非扩散类/流匹配类的机器人策略中？

[CVPR 2026] FASTER：重新定义 VLA 实时反应速度，单步采样解锁高动态视觉导航

1. TL;DR

2. 1. 痛点：平滑但不敏捷的“反应盲区”

3. 2. 核心直觉：近处的动作其实更简单

4. 3. 技术解法：Horizon-Aware Schedule (HAS)

5. 4. 实验战绩：低算力平台的逆袭

6. 5. 总结与深度洞察