Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

[2026] Critic in the Loop: 引入“评价器”三系统架构，突破长程机器人操控的稳健性瓶颈

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Tri-System VLA，一种受生物启发的三系统机器人操控框架。该框架通过集显式语义规划（System 2）、高速反应控制（System 1）以及轻量化视觉评价器（System 3, Critic）于一体，在长程（Long-horizon）任务中实现了高效的 SOTA 性能。

TL;DR

在具身智能领域，如何在“深度思考（逻辑规划）”与“快速反应（物理执行）”之间取得平衡始终是核心难题。中国科学院自动化研究所团队提出的 Tri-System VLA 框架，通过引入一个轻量级的 Critic（评价器） 模块，构建了“大脑-小脑-评价器”的三系统结构。它实现了按需调用大模型进行重规划，在长程任务中成功率大幅提升，尤其在处理意外干扰和分布外（OOD）任务时展现了极强的自主恢复能力。

背景定位：超越双系统隐喻

许多前沿的 VLA 模型（如 OpenVLA、 $π_{0.5}$ ）借鉴了丹尼尔·卡尼曼的“双系统”理论：System 1（快思考）负责低延迟的动作生成，System 2（慢思考）负责高层语义规划。然而，这种设计往往是“盲目执行”的——System 1 不知道自己是否失败，而 System 2 频繁调用又会导致由于推理延迟（Latency）引起的机器人动作卡顿。

痛点深挖：为什么机器人会“死循环”？

在复杂的长程任务（如 Tidy up the Desk）中，传统的 VLA 经常遇到以下问题：

执行僵化：由于切换逻辑固定，模型在平滑执行时也会浪费算力去重规划。
异常感知缺失：当目标物体被意外撞倒或掉落时，低层策略（小脑）依然在机械地重复之前的推演动作。
分布外（OOD）瘫痪：由于训练数据偏差，机器人遇到未见过的初始位置（如左手抓取原本习惯右手抓的杯子）时，会陷入物理限制导致的死循环。

核心方法论：Tri-System 架构解析

1. 三位一体的协作机制

System 2 (The Brain/大脑): 采用预训练 VLM（如 PaliGemma），仅在关键节点生成语义子目标（Subtasks）。
System 1 (The Cerebellum/小脑): 基于 Flow Matching 的专家模型，负责 20Hz 的闭环高频控制。
System 3 (The Critic/评价器): 这是本文的灵魂。 评价器是一个 0.2B 的轻量级视觉模型（如 Florence-2），它异步执行，实时打分。

Tri-System 架构图

2. 精妙的“按需思考”调度策略

Critic 不断评估当前视觉状态：

进度评估：通过 Monte Carlo Value Estimation 计算子任务完成度。
异常检测：通过语义 Token <aci> 识别物理失败（如摔落）。
停滞打破（Stagnation Break）：如果进度长时间（如 N 帧）不更新，Critic 会判定为“停滞”，强制触发机器人状态重置。这种结合了人类启发式规则的设计，是解决 OOD 问题的关键。

异步调度算法流程

实验与结果：强健的恢复力

研究团队在 ALOHA 双臂机器人上测试了极具挑战性的任务。在“餐具整理”任务中，当人类恶意撞倒杯子（Fallen 场景）时，Tri-System 能够即时通过 Critic 捕获异常，中断当前执行并调用 Brain 重新规划“扶起杯子”的任务。

实验结果对比

关键战绩：

在 OOD 任务（Left Cup）中，通过 Critic 触发的“状态重置”打破了右臂的盲目尝试，将成功率从 0% 提升至 70%。
计算效率：由于减少了对高参数 VLM 的冗余查询，系统响应速度大幅提升，避免了执行中的停顿。

深度洞察：自动化数据标注的“神助攻”

为了支持长程任务训练，作者开发了一套自动化子任务标注管线。它利用几何运动学（RDP 算法）寻找关键帧，再配合大模型（Qwen2-VL）进行语义检索。这种“物理约束+语义对齐”的方法，有效解决了长视频数据中由于操作员犹豫带来的噪声，保证了子任务边界的精确性。

总结与展望

Tri-System VLA 的核心价值在于其非对称的计算分配：用最廉价的算力（Critic）做持续的监控，用均衡的算力（VLA）做执行，将最昂贵的算力（Brain）留给意外时刻。

局限性：尽管架构精巧，目前的 System 2（大脑）在面对极度陌生的场景时仍可能产生推理幻觉。未来，引入强化学习（RL）进行推理在线优化，或利用生成式世界模型合成更多异常样本，将是该技术走向工业通用的必经之路。

本文基于 arXiv 论文《Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation》整理撰写。

Find Similar Papers

Try Our Examples

查找最近其他利用轻量化视觉评价器或奖励模型（Reward Model）来指导机器人行为切换的 VLA 相关论文。
哪篇论文最早在具身智能中应用了 Kahneman 的双系统理论（System 1 & 2），本文的 Tri-System 在学术脉络上对其做了哪些核心扩展？
有哪些研究探讨了如何利用生成式世界模型（Generative World Models）自动合成异常场景数据，以增强 VLA 模型在 OOD 环境下的鲁棒性？

Contents

[2026] Critic in the Loop: 引入“评价器”三系统架构，突破长程机器人操控的稳健性瓶颈

1. TL;DR

2. 背景定位：超越双系统隐喻

3. 痛点深挖：为什么机器人会“死循环”？

4. 核心方法论：Tri-System 架构解析

4.1. 1. 三位一体的协作机制

4.2. 2. 精妙的“按需思考”调度策略

5. 实验与结果：强健的恢复力

6. 深度洞察：自动化数据标注的“神助攻”

7. 总结与展望