本文提出了 BEVLM 框架,首次深入探讨了鸟瞰图(BEV)与视角图像(Perspective Image)在 LLM 推理中的表征优劣。通过将 LLM 的语义知识蒸馏至 BEV 编码器中,该方法在保持 3D 空间一致性的同时显著提升了端到端自动驾驶的安全性。
TL;DR
自动驾驶领域长期存在一个“语义-几何”的鸿沟:大语言模型(LLM)懂常识但不懂空间,BEV 架构懂空间但由于缺乏海量文本预训练,在处理复杂逻辑时显得“没脑子”。本文提出的 BEVLM 通过一种创新的语义蒸馏技术,成功将 LLM 的推理能力注入到 BEV 编码器中。实验证明,BEV 才是 LLM 驾驶的“天选”输入,且这种增强后的表征在闭环安全测试中表现惊人。
1. 痛点:为什么 LLM 看不明白路?
目前的视觉语言模型(VLM)通过多摄像头图像来感知世界。但这对 LLM 来说非常痛苦:它需要分别读取 6 个视角的 Token,并尝试在“脑海”中把这些碎片拼凑成 3D 空间。这种空间不一致性导致 LLM 经常在判断障碍物距离和相对位置时犯错。
与此同时,虽然 BEV(Bird's-Eye View,鸟瞰图)是 3D 空间的标准工业表达,但它通常是由目标检测(Bounding Box)等几何任务训练出来的。BEV 编码器只知道“这里有个方块”,却不知道“这个带红色头盔的外卖小哥可能会突然变道”。
2. 核心直觉:将 BEV 映射到语义流形 (Semantic Manifold)
作者提出了一个深刻的见解:BEV 不仅仅是一个像素网格,它应当是一个语义流形。
通过 freezing(冻结)一个强大的 LLM(如 InternVL 或 DeepSeek-VL),作者将其embedding 空间定义为一个固定的“教师流形”。BEV 编码器作为学生,通过一个轻量级的 MLP Projector 将 BEV Token 投射到这个空间里。

蒸馏公式的背后逻辑:
作者没有直接通过损失函数模仿 LLM 的分类概率,而是通过 VQA(视觉问答) 任务作为信息瓶颈。 这意味着为了回答“前方车道被封锁了,我该怎么办?”,BEV 编码器被迫要在其特征中编码出“车道封锁”和“安全决策”的高层语义信息。
3. 实验发现:BEV 是 LLM 的最佳搭档
在针对空间推理的 Ego3D 数据集上,研究人员对比了图像 Token 和 BEV Token 对 LLM 推理的影响。
注:表 3 显示,BEV 表征在跨视角推理准确率上提升了 46.0%,L1 距离误差降低了 27.8%。
关键结论: 即使使用了参数量远小于基础图像编码器(如 ViT)的 BEV 编码器,BEV 依然能提供更优的决策支持。这证明了**几何一致性(Spatial Consistency)**对自动驾驶大脑至关重要。
4. 闭环挑战:在极限场景中活下来
论文最硬核的部分在于 NeuroNCAP 闭环安全评估。作者不仅在 nuScenes 这种“一马平川”的公开课上刷分,还去仿真器里测试了“鬼探头”、“逆向车辆”等 Corner Cases。

- 场景 1:路口逆向开来一辆白车。
- Baseline:犹豫不决,最终发生正面碰撞。
- BEVLM (Distilled):迅速识别危险,执行右偏避让并制动,大幅降低了碰撞风险。
- 结果:经过 8B LLM 蒸馏后的 BEV 编码器,在 NeuroNCAP 上的分值提升了 29%,碰撞平均冲击速度显著下降。
5. 深度洞察:自动驾驶的“常识”从何而来?
通过消融实验,作者发现:
- 数据的本质:单纯教 BEV “这里有什么”(感知/预测)的提升,远不如教它“我该怎么做”(行为/规划)带来的收益大。
- 规模效应:使用 8B 参数的 LLM 作为教师,蒸馏出的 BEV 效果明显优于 1B 教师。这说明 LLM 的“智力”确实能迁移。
- 计算代价:虽然蒸馏 8B 模型的 BEV 需要 100 小时的 A100 算力,但一旦蒸馏完成,推理阶段可以完全脱离沉重的 LLM,直接使用轻量级的 BEV 编码器运行,实现了“高层智慧、低层部署”。
6. 总结与反思
BEVLM 的成功告诉我们,自动驾驶的下一个突破点可能不在于换一个更复杂的模型,而在于如何通过跨模态蒸馏,把人类积累在语言模型中的“常识”和“因果判断力”传递给底层的传感器表征。
当然,目前该方法还依赖于高质量的 VQA 数据集(如 DriveLM)。未来如何利用海量的无标注驾驶视频进行自主的“负向语义蒸馏”,将是该领域最值得期待的方向。
