ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

[CVPR 2025(?)] ACE-Brain-0: 空间智能是多模态具身大脑的通用脚手架

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ACE-Brain-0，这是一个统一了空间推理、自动驾驶、无人机（UAV）感知和具身操控的通用多模态大语言模型。通过提出的 SSR 训练范式，模型在 24 个空间与具身智能基准测试中达到了 SOTA 或竞争性水平。

TL;DR

ACE-Brain-0 是由 ACE Robotics 领衔开发的一个具身基座大脑。它通过一个被称为 SSR (Scaffold-Specialize-Reconcile) 的三阶段训练策略，成功地将自动驾驶、无人机感知、机器人操控和视觉空间推理统一到了单个 8B 参数的模型中。该研究的核心论点是：无论物理形态差异多大，所有具身智能都共享一套 3D 精神空间 (3D Mental Space)，这可以作为跨形态知识迁移的物理桥梁。

背景定位：解决具身智能的“诸神黄昏”

在迈向通用具身智能（Universal Embodied Intelligence）的道路上，开发者通常面临两个极端的困境：

联合训练的博弈：把车、飞机、机械臂的数据堆在一起练，模型会因为梯度方向不一致而相互打架（Gradient Interference），导致什么都学不精。
顺序训练的遗忘：先学开车再学修飞机的后果通常是——学会了修飞机，模型却忘记了怎么开车（Catastrophic Forgetting）。

ACE-Brain-0 提出了一种类似人类认知的方案：先练好“空间感”，再根据职业方向（驾驶、飞行、操控）进行进修，最后合而为一。

核心方案：SSR 训练范式

SSR 范式是本文的技术灵魂，其流程逻辑严密，旨在解决稳定性与塑性（Stability-Plasticity）的平衡问题：

Scaffold (脚手架阶段)：模型首先在海量的空间智能数据集上进行 SFT，学习 3D 布局、距离感、拓扑关系和坐标变换。这为模型植入了“世界观”。
Specialize (专业化阶段)：基于空间脚手架，模型被克隆出多个副本，分别在自动驾驶（AD）、无人机（UAV）等垂直领域独立微调。这种隔离训练彻底避免了领域间的梯度干扰。
Reconcile (和解/融合阶段)：利用最新的**无数据模型融合（Data-free Model Merging）**技术（如 WUDI 算法），将各领域专家的参数权重进行智能合并。这不仅保留了各领域的尖端性能，还产生了超加性（Super-additive）效应。

模型架构图 图 1：ACE-Brain-0 的统一多模态架构，支持单视图、多视图及视频输入，涵盖空间、驾驶、飞行、具身四大领域。

实验与结果：全方位吊打

ACE-Brain-0 在 24 个基准测试上进行了地毯式评估：

空间认知：在 SAT 任务中达到 92.0% 的惊人准确率，远超 GPT-4o（66.7%）和 Gemini-2.5-Pro。
自动驾驶：在 NuPlanQA 等任务中表现优异，证明它不仅仅是背诵指令，而是建立了一致的自我中心（Ego-centric）物理理解。
无人机：在一系列高分辨率航拍视觉任务（如 AirCopBench）中创下新纪录。

实验结果对比 图 2：ACE-Brain-0 与其他具身大脑（如 Vlaser, RoboBrain）的雷达图对比，展示了其在全域能力上的广度。

深度洞察：为什么“空间智能”是解药？

论文在消融实验中给出了极具说服力的证据：

如果直接训练具身专家，模型甚至会出现性能倒退（Inductive Bias 缺失）；
而一旦有了空间脚手架的引导，自动驾驶专家能力的增益从 11.1% 暴涨至 25.6%。这说明空间认知不仅是背景知识，它实际上为学习复杂的动作序列提供了一种几何约束。从物理含义上看，无论你是要避开路上的行车，还是要在低空绕过电线，底层逻辑都是在 3D 常量空间内进行轨迹规划。

总结与局限

ACE-Brain-0 证明了：通过合理的“认知阶段划分”和“模型融合技术”，单一 MLLM 完全可以胜任极其复杂的跨形态任务。 不足之处：目前模型主要集中在视觉推理与感知规划阶段，距离实时的端到端闭环控制（Low-level Action Control）仍有一步之遥。未来的方向在于将此大脑与更精细的 Visuomotor 策略结合，实现真正的“知行合一”。

这项工作为构建“具身大模型”提供了一个极其正统且高效的范本。

Find Similar Papers

Try Our Examples

查找最近其他将 3D 空间推理作为基础能力（Scaffold）来提升多模态大模型具身表现的论文。
哪篇论文最早提出了模型融合（Model Merging）中的任务向量（Task Vector）概念，本文使用的 WUDI 融合方法与其有何改进关系？
有哪些研究探讨了 Group Relative Policy Optimization (GRPO) 在具身智能或机器人控制任务中的对齐效果？

Contents

[CVPR 2025(?)] ACE-Brain-0: 空间智能是多模态具身大脑的通用脚手架

1. TL;DR

2. 背景定位：解决具身智能的“诸神黄昏”

3. 核心方案：SSR 训练范式

4. 实验与结果：全方位吊打

5. 深度洞察：为什么“空间智能”是解药？

6. 总结与局限