WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
EmbodiedMidtrain:不仅是规模,更是对齐——如何通过“中向训练”激活 VLA 潜力
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 EmbodiedMidtrain,一种旨在弥合视觉语言模型 (VLMs) 与视觉语言动作模型 (VLAs) 之间分布鸿沟的中向训练 (Mid-training) 框架。通过一种轻量级的“邻近度评估器”从海量 VLM 数据中筛选出与机器人领域最相关的样本,该方法在 InternVL3.5-1B 等架构上实现了显著的具身控制性能提升。

TL;DR

在机器人控制领域,直接将预训练好的视觉语言模型(VLM)微调成动作模型(VLA)往往事倍功半。卡内基梅隆大学与博世研究院的最新工作 EmbodiedMidtrain 揭示了原因:数据分布断层。作者通过引入一个轻量级的邻近度评估器,在训练动作之前先进行一次“数据对齐”的中向训练(Mid-training),仅用 1.1B 的参数量便挑战了 7B 以上模型的统治地位。

痛点深挖:消失的具身能力

尽管像 LLaVA、Qwen-VL 等模型拥有强大的图像理解能力,但当它们被置于机械臂视角下时,往往表现得像个“书呆子”。

  • 分布分离:研究发现,VLA 数据(动作轨迹)在特征空间中形成极其紧凑的聚类,与通用的 VLM 数据(互联网图文对)几乎完全分离。
  • 任务错位:通用数据关注“这书封面上写了什么”,而具身任务关注“空间坐标”和“物体方位”。 在这种背景下,直接进行下游微调类似于强行让一个文科生在没有预备知识的情况下转专业修读工程机械。

核心机制:轻量级数据引擎 (Methodology)

EmbodiedMidtrain 的天才之处在于它没有盲目堆算力,而是做了一次精细化的“数据手术”。

1. 邻近度评估器 (Proximity Estimator)

作者并没有使用复杂的指标,而是训练了一个极其简单的二分类器(Linear Head)。

  • 目标:输入冻结的 VLM 特征,判断该样本更像通用的 VLM 数据还是 VLA 动作数据。
  • 逻辑:通过 Logit 评分,从海量 VLM 数据(如 LAION-400M)中“大海捞针”,找那些潜伏在通用数据里的、具有强烈空间逻辑和物理直觉的优质样本。

2. 模型架构图

EmbodiedMidtrain 框架图 (图示展示了从 VLM 候选池到 VLA 导向的 Mid-training 混合数据的演进过程)

实验战绩:以小博大的胜利

实验共涉及 Calvin、SimplerEnv 和 Libero-10 三大机器人操纵基准。

  • 小模型、高性能:经过中向训练的 InternVL3.5-1B 在动作预测长度(Avg. Len)上达到了 3.714,超越了 7.7B 的 OpenVLA 以及 3B 的 Paligemma 系列。
  • 跨模型迁移:有趣的是,作者用 InternVL 筛选出的数据去训练 Qwen3VL,性能同样得到了显著提升。这证明了邻近度评估器捕捉到的是具身相关的物理直觉,而非特定模型的偏差。

核心结果对比

实验结果柱状图 (上图展示了 mid-training 显著拉升了模型在不同复杂程度任务中的成功率上限)

深度洞察:为什么有效?

传统的微调(Fine-tuning)更像是在补考前突击记忆,而中向训练(Mid-training)是在重塑模型的底层直觉。

  1. 早期优势 (Early-stage gains):训练动态分析显示,中向训练过的模型从微调的第一步起,起点就远高于基线模型。
  2. 空间逻辑优先:通过对高分样本的定性分析(Qualitative Analysis),发现邻近度评估器更青睐那些涉及坐标推理(Spatial Reasoning)、方位辨识的图文对,而非单纯的 OCR 文字识别。

局限性与展望

虽然 EmbodiedMidtrain 取得了惊人的效率提升,但它仍然依赖于一部分高质量的 VLA 目标数据作为参考。未来的研究方向可能在于:

  • 如何完全在无监督的情况下发现这些“类具身”样本?
  • 这种邻近度评估是否能扩展到多模态生成的扩散模型中?

总结

这篇论文给工业界的一大启示是:比起无脑增加训练 Token 数,优化数据的分布对齐(Alignment)往往能带来更高的回报。 对于资源受限的团队,开发高效的数据过滤引擎(Data Engine)可能是打造竞争力产品的捷径。

Find Similar Papers

Try Our Examples

  • 查找其他最近试图通过数据筛选(Data Curation)或是课程学习方法来对齐 VLM 与 VLA 领域的 SOTA 论文。
  • 哪篇论文最早在视觉语言研究中提出了中向训练(Mid-training)的概念,本文在具身智能场景下对其做了哪些本质改进?
  • 探讨如何将这种基于邻近度打分的样本选择策略应用到多模态大模型的长视频理解或实时导航任务中?
Contents
EmbodiedMidtrain:不仅是规模,更是对齐——如何通过“中向训练”激活 VLA 潜力
1. TL;DR
2. 痛点深挖:消失的具身能力
3. 核心机制:轻量级数据引擎 (Methodology)
3.1. 1. 邻近度评估器 (Proximity Estimator)
3.2. 2. 模型架构图
4. 实验战绩:以小博大的胜利
4.1. 核心结果对比
5. 深度洞察:为什么有效?
6. 局限性与展望
7. 总结