本文提出了 Tri-System VLA,一种受生物启发的三系统机器人操控框架。该框架通过集显式语义规划(System 2)、高速反应控制(System 1)以及轻量化视觉评价器(System 3, Critic)于一体,在长程(Long-horizon)任务中实现了高效的 SOTA 性能。
TL;DR
在具身智能领域,如何在“深度思考(逻辑规划)”与“快速反应(物理执行)”之间取得平衡始终是核心难题。中国科学院自动化研究所团队提出的 Tri-System VLA 框架,通过引入一个轻量级的 Critic(评价器) 模块,构建了“大脑-小脑-评价器”的三系统结构。它实现了按需调用大模型进行重规划,在长程任务中成功率大幅提升,尤其在处理意外干扰和分布外(OOD)任务时展现了极强的自主恢复能力。
背景定位:超越双系统隐喻
许多前沿的 VLA 模型(如 OpenVLA、)借鉴了丹尼尔·卡尼曼的“双系统”理论:System 1(快思考)负责低延迟的动作生成,System 2(慢思考)负责高层语义规划。然而,这种设计往往是“盲目执行”的——System 1 不知道自己是否失败,而 System 2 频繁调用又会导致由于推理延迟(Latency)引起的机器人动作卡顿。
痛点深挖:为什么机器人会“死循环”?
在复杂的长程任务(如 Tidy up the Desk)中,传统的 VLA 经常遇到以下问题:
- 执行僵化:由于切换逻辑固定,模型在平滑执行时也会浪费算力去重规划。
- 异常感知缺失:当目标物体被意外撞倒或掉落时,低层策略(小脑)依然在机械地重复之前的推演动作。
- 分布外(OOD)瘫痪:由于训练数据偏差,机器人遇到未见过的初始位置(如左手抓取原本习惯右手抓的杯子)时,会陷入物理限制导致的死循环。
核心方法论:Tri-System 架构解析
1. 三位一体的协作机制
- System 2 (The Brain/大脑): 采用预训练 VLM(如 PaliGemma),仅在关键节点生成语义子目标(Subtasks)。
- System 1 (The Cerebellum/小脑): 基于 Flow Matching 的专家模型,负责 20Hz 的闭环高频控制。
- System 3 (The Critic/评价器): 这是本文的灵魂。 评价器是一个 0.2B 的轻量级视觉模型(如 Florence-2),它异步执行,实时打分。

2. 精妙的“按需思考”调度策略
Critic 不断评估当前视觉状态:
- 进度评估:通过 Monte Carlo Value Estimation 计算子任务完成度。
- 异常检测:通过语义 Token
<aci>识别物理失败(如摔落)。 - 停滞打破(Stagnation Break):如果进度长时间(如 N 帧)不更新,Critic 会判定为“停滞”,强制触发机器人状态重置。这种结合了人类启发式规则的设计,是解决 OOD 问题的关键。

实验与结果:强健的恢复力
研究团队在 ALOHA 双臂机器人上测试了极具挑战性的任务。在“餐具整理”任务中,当人类恶意撞倒杯子(Fallen 场景)时,Tri-System 能够即时通过 Critic 捕获异常,中断当前执行并调用 Brain 重新规划“扶起杯子”的任务。

关键战绩:
- 在 OOD 任务(Left Cup)中,通过 Critic 触发的“状态重置”打破了右臂的盲目尝试,将成功率从 0% 提升至 70%。
- 计算效率:由于减少了对高参数 VLM 的冗余查询,系统响应速度大幅提升,避免了执行中的停顿。
深度洞察:自动化数据标注的“神助攻”
为了支持长程任务训练,作者开发了一套自动化子任务标注管线。它利用几何运动学(RDP 算法)寻找关键帧,再配合大模型(Qwen2-VL)进行语义检索。这种“物理约束+语义对齐”的方法,有效解决了长视频数据中由于操作员犹豫带来的噪声,保证了子任务边界的精确性。
总结与展望
Tri-System VLA 的核心价值在于其非对称的计算分配:用最廉价的算力(Critic)做持续的监控,用均衡的算力(VLA)做执行,将最昂贵的算力(Brain)留给意外时刻。
局限性:尽管架构精巧,目前的 System 2(大脑)在面对极度陌生的场景时仍可能产生推理幻觉。未来,引入强化学习(RL)进行推理在线优化,或利用生成式世界模型合成更多异常样本,将是该技术走向工业通用的必经之路。
本文基于 arXiv 论文 《Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation》 整理撰写。
