本文提出了 EvoDriveVLA,一种面向自动驾驶的协同感知-规划蒸馏框架。该方法通过引入自锚定(Self-anchored)视觉蒸馏和先知引导(Oracle-guided)轨迹蒸馏,显著提升了 Vision-Language-Action (VLA) 模型在复杂场景下的感知鲁棒性与长时规划稳定性,在 nuScenes 和 NAVSIM 榜单均取得 SOTA 成就。
TL;DR
在端到端自动驾驶领域,Vision-Language-Action (VLA) 模型虽然展现了强大的推理潜力,但在实际训练中常面临感知能力退化和规划不稳定的困境。来自清华、思科等机构的研究者提出了 EvoDriveVLA 框架。通过自锚定视觉蒸馏(保住感知底子)和先知引导轨迹蒸馏(引入未来上帝视角),该模型在 3B 参数量级下实现了超越 8B 模型的驾驶表现。
背景定位:VLA 模型的“既要又要”难题
在自动驾驶任务中,解冻视觉编码器(Visual Encoder)虽然能提升领域适配性,但往往会破坏模型在预训练阶段习得的通用特征。此外,普通的知识蒸馏(KD)机制中,教师模型和学生模型看的是同样的传感器数据,这导致教师并不能提供真正“超前”的指导。
EvoDriveVLA 的核心 Insight 在于:与其让教师和学生在同一条起跑线上竞争,不如给教师“开挂”(输入未来信息),再让学生去模仿这种具备预见性的行为。
核心方法论:协同感知-规划蒸馏
1. 自锚定视觉蒸馏 (Self-Anchored Visual Distillation)
为了防止视觉编码器在微调时“变瞎”,作者引入了一个 AnchorFormer。它利用原始预训练的编码器作为基准(Self-anchor Teacher),动态地为图像中与轨迹规划相关的关键区域分配更高的权重。通过 MSE Loss 约束,确保学生模型在学习驾驶的同时,依然保有坚实的感知基础。
图 1:EvoDriveVLA 整体框架:左侧为视觉自锚定,右侧为先知轨迹引导。
2. 先知引导与轨迹精炼 (Oracle-Guided Distillation)
这是本作最惊艳的设计:
- 上帝视角:Oracle Teacher 在训练时可以阅读未来 秒的图像和状态。
- 粗到精重构:先生成粗略轨迹,再反复迭代精炼。
- MC-Dropout 采样:为了不让蒸馏变得死板,利用 Dropout 产生多样性的候选轨迹空间,并从中挑选与 Ground-truth 最契合的作为“软标签”。
实验战绩:以小博大
研究团队在 nuScenes(开环)和 NAVSIM(闭环)两个权威榜单上进行了验证。
- 开环战力:相比之前的 SOTA 模型 OpenDriveVLA,EvoDriveVLA 的 L2 误差降低了约 22%,碰撞率在 UniAD 协议下暴降 60%。
- 闭环反杀:最值得关注的是,经过蒸馏的 Qwen2.5-VL 3B 模型,在 PDMS 分数上超过了 8B 的 Qwen2.5-VL 和 InternVL3。
表 1:在 nuScenes 上的开环性能对比,EvoDriveVLA 保持领先。
深度洞察:为什么有效?
传统的 VLA 训练像是复读机,学生只是在机械模仿标注数据。而 EvoDriveVLA 的蒸馏过程更像是一位拥有预知能力的教练在教学。消融实验(Ablation Study)显示,如果没有 MC-Dropout 和轨迹精炼,模型的长时预测精度会显著下降。
作者通过核密度估计(KDE)分析发现,精炼后的轨迹误差分布明显向零点收缩,这证明了教师提供的“软知识”质量远高于原始数据的“硬标签”。
图 2:MC-Dropout 采样显著降低了教师轨迹的误差分布。
总结与局限
EvoDriveVLA 成功通过“先知蒸馏”这种不对称的训练策略,解决了 VLA 模型在自动驾驶中的感知退化和决策不稳问题。 局限性:尽管闭环表现优秀,但其对未来特权信息的依赖仅限于训练阶段。在极端罕见的长尾场景(Out-of-distribution)下,Oracle 教师的鲁棒性是否会反向限制学生,仍值得进一步探讨。
对于追求高效端到端部署的开发者来说,这种“大模型蒸馏出高性能小模型”的路径无疑是未来的主流。
