WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2025(?)] ACE-Brain-0: 空间智能是多模态具身大脑的通用脚手架
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 ACE-Brain-0,这是一个统一了空间推理、自动驾驶、无人机(UAV)感知和具身操控的通用多模态大语言模型。通过提出的 SSR 训练范式,模型在 24 个空间与具身智能基准测试中达到了 SOTA 或竞争性水平。

TL;DR

ACE-Brain-0 是由 ACE Robotics 领衔开发的一个具身基座大脑。它通过一个被称为 SSR (Scaffold-Specialize-Reconcile) 的三阶段训练策略,成功地将自动驾驶、无人机感知、机器人操控和视觉空间推理统一到了单个 8B 参数的模型中。该研究的核心论点是:无论物理形态差异多大,所有具身智能都共享一套 3D 精神空间 (3D Mental Space),这可以作为跨形态知识迁移的物理桥梁。

背景定位:解决具身智能的“诸神黄昏”

在迈向通用具身智能(Universal Embodied Intelligence)的道路上,开发者通常面临两个极端的困境:

  1. 联合训练的博弈:把车、飞机、机械臂的数据堆在一起练,模型会因为梯度方向不一致而相互打架(Gradient Interference),导致什么都学不精。
  2. 顺序训练的遗忘:先学开车再学修飞机的后果通常是——学会了修飞机,模型却忘记了怎么开车(Catastrophic Forgetting)。

ACE-Brain-0 提出了一种类似人类认知的方案:先练好“空间感”,再根据职业方向(驾驶、飞行、操控)进行进修,最后合而为一。

核心方案:SSR 训练范式

SSR 范式是本文的技术灵魂,其流程逻辑严密,旨在解决稳定性与塑性(Stability-Plasticity)的平衡问题:

  1. Scaffold (脚手架阶段):模型首先在海量的空间智能数据集上进行 SFT,学习 3D 布局、距离感、拓扑关系和坐标变换。这为模型植入了“世界观”。
  2. Specialize (专业化阶段):基于空间脚手架,模型被克隆出多个副本,分别在自动驾驶(AD)、无人机(UAV)等垂直领域独立微调。这种隔离训练彻底避免了领域间的梯度干扰。
  3. Reconcile (和解/融合阶段):利用最新的**无数据模型融合(Data-free Model Merging)**技术(如 WUDI 算法),将各领域专家的参数权重进行智能合并。这不仅保留了各领域的尖端性能,还产生了超加性(Super-additive)效应。

模型架构图 图 1:ACE-Brain-0 的统一多模态架构,支持单视图、多视图及视频输入,涵盖空间、驾驶、飞行、具身四大领域。

实验与结果:全方位吊打

ACE-Brain-0 在 24 个基准测试上进行了地毯式评估:

  • 空间认知:在 SAT 任务中达到 92.0% 的惊人准确率,远超 GPT-4o(66.7%)和 Gemini-2.5-Pro。
  • 自动驾驶:在 NuPlanQA 等任务中表现优异,证明它不仅仅是背诵指令,而是建立了一致的自我中心(Ego-centric)物理理解。
  • 无人机:在一系列高分辨率航拍视觉任务(如 AirCopBench)中创下新纪录。

实验结果对比 图 2:ACE-Brain-0 与其他具身大脑(如 Vlaser, RoboBrain)的雷达图对比,展示了其在全域能力上的广度。

深度洞察:为什么“空间智能”是解药?

论文在消融实验中给出了极具说服力的证据:

  • 如果直接训练具身专家,模型甚至会出现性能倒退(Inductive Bias 缺失);
  • 而一旦有了空间脚手架的引导,自动驾驶专家能力的增益从 11.1% 暴涨至 25.6%。 这说明空间认知不仅是背景知识,它实际上为学习复杂的动作序列提供了一种几何约束。从物理含义上看,无论你是要避开路上的行车,还是要在低空绕过电线,底层逻辑都是在 3D 常量空间内进行轨迹规划。

总结与局限

ACE-Brain-0 证明了:通过合理的“认知阶段划分”和“模型融合技术”,单一 MLLM 完全可以胜任极其复杂的跨形态任务。 不足之处:目前模型主要集中在视觉推理与感知规划阶段,距离实时的端到端闭环控制(Low-level Action Control)仍有一步之遥。未来的方向在于将此大脑与更精细的 Visuomotor 策略结合,实现真正的“知行合一”。

这项工作为构建“具身大模型”提供了一个极其正统且高效的范本。

Find Similar Papers

Try Our Examples

  • 查找最近其他将 3D 空间推理作为基础能力(Scaffold)来提升多模态大模型具身表现的论文。
  • 哪篇论文最早提出了模型融合(Model Merging)中的任务向量(Task Vector)概念,本文使用的 WUDI 融合方法与其有何改进关系?
  • 有哪些研究探讨了 Group Relative Policy Optimization (GRPO) 在具身智能或机器人控制任务中的对齐效果?
Contents
[CVPR 2025(?)] ACE-Brain-0: 空间智能是多模态具身大脑的通用脚手架
1. TL;DR
2. 背景定位:解决具身智能的“诸神黄昏”
3. 核心方案:SSR 训练范式
4. 实验与结果:全方位吊打
5. 深度洞察:为什么“空间智能”是解药?
6. 总结与局限