WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[2026] Critic in the Loop: 引入“评价器”三系统架构,突破长程机器人操控的稳健性瓶颈
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 Tri-System VLA,一种受生物启发的三系统机器人操控框架。该框架通过集显式语义规划(System 2)、高速反应控制(System 1)以及轻量化视觉评价器(System 3, Critic)于一体,在长程(Long-horizon)任务中实现了高效的 SOTA 性能。

TL;DR

在具身智能领域,如何在“深度思考(逻辑规划)”与“快速反应(物理执行)”之间取得平衡始终是核心难题。中国科学院自动化研究所团队提出的 Tri-System VLA 框架,通过引入一个轻量级的 Critic(评价器) 模块,构建了“大脑-小脑-评价器”的三系统结构。它实现了按需调用大模型进行重规划,在长程任务中成功率大幅提升,尤其在处理意外干扰和分布外(OOD)任务时展现了极强的自主恢复能力。

背景定位:超越双系统隐喻

许多前沿的 VLA 模型(如 OpenVLA、)借鉴了丹尼尔·卡尼曼的“双系统”理论:System 1(快思考)负责低延迟的动作生成,System 2(慢思考)负责高层语义规划。然而,这种设计往往是“盲目执行”的——System 1 不知道自己是否失败,而 System 2 频繁调用又会导致由于推理延迟(Latency)引起的机器人动作卡顿。

痛点深挖:为什么机器人会“死循环”?

在复杂的长程任务(如 Tidy up the Desk)中,传统的 VLA 经常遇到以下问题:

  1. 执行僵化:由于切换逻辑固定,模型在平滑执行时也会浪费算力去重规划。
  2. 异常感知缺失:当目标物体被意外撞倒或掉落时,低层策略(小脑)依然在机械地重复之前的推演动作。
  3. 分布外(OOD)瘫痪:由于训练数据偏差,机器人遇到未见过的初始位置(如左手抓取原本习惯右手抓的杯子)时,会陷入物理限制导致的死循环。

核心方法论:Tri-System 架构解析

1. 三位一体的协作机制

  • System 2 (The Brain/大脑): 采用预训练 VLM(如 PaliGemma),仅在关键节点生成语义子目标(Subtasks)。
  • System 1 (The Cerebellum/小脑): 基于 Flow Matching 的专家模型,负责 20Hz 的闭环高频控制。
  • System 3 (The Critic/评价器): 这是本文的灵魂。 评价器是一个 0.2B 的轻量级视觉模型(如 Florence-2),它异步执行,实时打分。

Tri-System 架构图

2. 精妙的“按需思考”调度策略

Critic 不断评估当前视觉状态:

  • 进度评估:通过 Monte Carlo Value Estimation 计算子任务完成度。
  • 异常检测:通过语义 Token <aci> 识别物理失败(如摔落)。
  • 停滞打破(Stagnation Break):如果进度长时间(如 N 帧)不更新,Critic 会判定为“停滞”,强制触发机器人状态重置。这种结合了人类启发式规则的设计,是解决 OOD 问题的关键。

异步调度算法流程

实验与结果:强健的恢复力

研究团队在 ALOHA 双臂机器人上测试了极具挑战性的任务。在“餐具整理”任务中,当人类恶意撞倒杯子(Fallen 场景)时,Tri-System 能够即时通过 Critic 捕获异常,中断当前执行并调用 Brain 重新规划“扶起杯子”的任务。

实验结果对比

关键战绩:

  • 在 OOD 任务(Left Cup)中,通过 Critic 触发的“状态重置”打破了右臂的盲目尝试,将成功率从 0% 提升至 70%。
  • 计算效率:由于减少了对高参数 VLM 的冗余查询,系统响应速度大幅提升,避免了执行中的停顿。

深度洞察:自动化数据标注的“神助攻”

为了支持长程任务训练,作者开发了一套自动化子任务标注管线。它利用几何运动学(RDP 算法)寻找关键帧,再配合大模型(Qwen2-VL)进行语义检索。这种“物理约束+语义对齐”的方法,有效解决了长视频数据中由于操作员犹豫带来的噪声,保证了子任务边界的精确性。

总结与展望

Tri-System VLA 的核心价值在于其非对称的计算分配:用最廉价的算力(Critic)做持续的监控,用均衡的算力(VLA)做执行,将最昂贵的算力(Brain)留给意外时刻。

局限性:尽管架构精巧,目前的 System 2(大脑)在面对极度陌生的场景时仍可能产生推理幻觉。未来,引入强化学习(RL)进行推理在线优化,或利用生成式世界模型合成更多异常样本,将是该技术走向工业通用的必经之路。


本文基于 arXiv 论文 《Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation》 整理撰写。

Find Similar Papers

Try Our Examples

  • 查找最近其他利用轻量化视觉评价器或奖励模型(Reward Model)来指导机器人行为切换的 VLA 相关论文。
  • 哪篇论文最早在具身智能中应用了 Kahneman 的双系统理论(System 1 &amp; 2),本文的 Tri-System 在学术脉络上对其做了哪些核心扩展?
  • 有哪些研究探讨了如何利用生成式世界模型(Generative World Models)自动合成异常场景数据,以增强 VLA 模型在 OOD 环境下的鲁棒性?
Contents
[2026] Critic in the Loop: 引入“评价器”三系统架构,突破长程机器人操控的稳健性瓶颈
1. TL;DR
2. 背景定位:超越双系统隐喻
3. 痛点深挖:为什么机器人会“死循环”?
4. 核心方法论:Tri-System 架构解析
4.1. 1. 三位一体的协作机制
4.2. 2. 精妙的“按需思考”调度策略
5. 实验与结果:强健的恢复力
6. 深度洞察:自动化数据标注的“神助攻”
7. 总结与展望