EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

EvoDriveVLA：协同蒸馏打破 VLA 自动驾驶模型的性能瓶颈

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 EvoDriveVLA，一种面向自动驾驶的协同感知-规划蒸馏框架。该方法通过引入自锚定（Self-anchored）视觉蒸馏和先知引导（Oracle-guided）轨迹蒸馏，显著提升了 Vision-Language-Action (VLA) 模型在复杂场景下的感知鲁棒性与长时规划稳定性，在 nuScenes 和 NAVSIM 榜单均取得 SOTA 成就。

TL;DR

在端到端自动驾驶领域，Vision-Language-Action (VLA) 模型虽然展现了强大的推理潜力，但在实际训练中常面临感知能力退化和规划不稳定的困境。来自清华、思科等机构的研究者提出了 EvoDriveVLA 框架。通过自锚定视觉蒸馏（保住感知底子）和先知引导轨迹蒸馏（引入未来上帝视角），该模型在 3B 参数量级下实现了超越 8B 模型的驾驶表现。

背景定位：VLA 模型的“既要又要”难题

在自动驾驶任务中，解冻视觉编码器（Visual Encoder）虽然能提升领域适配性，但往往会破坏模型在预训练阶段习得的通用特征。此外，普通的知识蒸馏（KD）机制中，教师模型和学生模型看的是同样的传感器数据，这导致教师并不能提供真正“超前”的指导。

EvoDriveVLA 的核心 Insight 在于：与其让教师和学生在同一条起跑线上竞争，不如给教师“开挂”（输入未来信息），再让学生去模仿这种具备预见性的行为。

核心方法论：协同感知-规划蒸馏

1. 自锚定视觉蒸馏 (Self-Anchored Visual Distillation)

为了防止视觉编码器在微调时“变瞎”，作者引入了一个 AnchorFormer。它利用原始预训练的编码器作为基准（Self-anchor Teacher），动态地为图像中与轨迹规划相关的关键区域分配更高的权重。通过 MSE Loss 约束，确保学生模型在学习驾驶的同时，依然保有坚实的感知基础。

模型架构图 图 1：EvoDriveVLA 整体框架：左侧为视觉自锚定，右侧为先知轨迹引导。

2. 先知引导与轨迹精炼 (Oracle-Guided Distillation)

这是本作最惊艳的设计：

上帝视角：Oracle Teacher 在训练时可以阅读未来 $T$ 秒的图像和状态。
粗到精重构：先生成粗略轨迹，再反复迭代精炼。
MC-Dropout 采样：为了不让蒸馏变得死板，利用 Dropout 产生多样性的候选轨迹空间，并从中挑选与 Ground-truth 最契合的作为“软标签”。

实验战绩：以小博大

研究团队在 nuScenes（开环）和 NAVSIM（闭环）两个权威榜单上进行了验证。

开环战力：相比之前的 SOTA 模型 OpenDriveVLA，EvoDriveVLA 的 L2 误差降低了约 22%，碰撞率在 UniAD 协议下暴降 60%。
闭环反杀：最值得关注的是，经过蒸馏的 Qwen2.5-VL 3B 模型，在 PDMS 分数上超过了 8B 的 Qwen2.5-VL 和 InternVL3。

实验结果对比 表 1：在 nuScenes 上的开环性能对比，EvoDriveVLA 保持领先。

深度洞察：为什么有效？

传统的 VLA 训练像是复读机，学生只是在机械模仿标注数据。而 EvoDriveVLA 的蒸馏过程更像是一位拥有预知能力的教练在教学。消融实验（Ablation Study）显示，如果没有 MC-Dropout 和轨迹精炼，模型的长时预测精度会显著下降。

作者通过核密度估计（KDE）分析发现，精炼后的轨迹误差分布明显向零点收缩，这证明了教师提供的“软知识”质量远高于原始数据的“硬标签”。

消融实验与分析 图 2：MC-Dropout 采样显著降低了教师轨迹的误差分布。

总结与局限

EvoDriveVLA 成功通过“先知蒸馏”这种不对称的训练策略，解决了 VLA 模型在自动驾驶中的感知退化和决策不稳问题。 局限性：尽管闭环表现优秀，但其对未来特权信息的依赖仅限于训练阶段。在极端罕见的长尾场景（Out-of-distribution）下，Oracle 教师的鲁棒性是否会反向限制学生，仍值得进一步探讨。

对于追求高效端到端部署的开发者来说，这种“大模型蒸馏出高性能小模型”的路径无疑是未来的主流。

Find Similar Papers

Try Our Examples

查找最近其他利用“先知信息”（Oracle/Privileged Information）进行轨迹规划蒸馏的自动驾驶论文。
自锚定机制（Self-anchoring）在多模态大模型微调中防止灾难性遗忘的理论基础是什么？
有哪些研究探讨了将 Monte Carlo Dropout 采样用于提升自动驾驶模型生成轨迹多样性与安全性？

Contents

EvoDriveVLA：协同蒸馏打破 VLA 自动驾驶模型的性能瓶颈

1. TL;DR

2. 背景定位：VLA 模型的“既要又要”难题

3. 核心方法论：协同感知-规划蒸馏

3.1. 1. 自锚定视觉蒸馏 (Self-Anchored Visual Distillation)

3.2. 2. 先知引导与轨迹精炼 (Oracle-Guided Distillation)

4. 实验战绩：以小博大

5. 深度洞察：为什么有效？

6. 总结与局限