WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[ICLR 2025] LaST-VLA:让自动驾驶在隐式时空空间中“思考”
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 LaST-VLA,一种将自动驾驶推理从显式文本转向连续隐式时空空间(Latent Spatio-Temporal Space)的 VLA 模型。通过将隐式思维链(Latent CoT)与 3D 几何基础模型和视频世界模型对齐,该方法在 NAVSIM 榜单上创下了 91.3 PDMS 的新 SOTA 纪录。

TL;DR

自动驾驶的 Vision-Language-Action (VLA) 模型正面临一个尴尬的悖论:用文字思考(Textual CoT)太慢且容易胡言乱语(幻觉),而不思考(Direct Planning)又缺乏健壮性。LaST-VLA 提出了一种天才的折中方案:去文字化,但在隐空间(Latent Space)里注入物理约束。 它通过将隐藏层状态与 3D 几何和世界模型对齐,让模型学会了在“脑海”中构建稳定的时空图景,直接在 NAVSIM 榜单刷新 SOTA。


动机:为什么文本 CoT 会“带偏”自动驾驶?

在 LLM 领域,思维链级联推理是标配。但在高速移动的自动驾驶场景中,文字推理存在致命缺陷:

  1. 语义与物理脱节:模型可能写着“检测到左侧车辆”,实际生成的轨迹却往左撞,这种感知-符号冲突极具危险。
  2. 推理延迟:生成一长串文本描述会消耗大量 Inference Budget,对于实时性要求极高的驾驶任务来说,这种“过度思考”是奢侈的。
  3. 缺乏稳定性:此前有人尝试去掉文字直接用 Latent States 推理,但由于没有中间监督,模型非常容易崩溃(Collapse)。

LaST-VLA 的核心 Insight 是:推理不一定要变成语言,但一定要符合物理。


核心方法:隐式时空思维链(Latent Spatio-Temporal CoT)

LaST-VLA 的架构通过两个关键的“适配器(Adapter)”为模型装上了物理滤镜:

1. 结构化特征对齐

模型将推理过程中的 Hidden States 分为**动力学(Dynamic)几何(Geometric)**两个流:

  • Dynamics Adapter (Φdyn):对齐到视频世界模型(如 NVIDIA Cosmos),捕捉环境的动态演变和交通流预判。
  • Geometry Adapter (Φgeo):对齐到 3D 基础模型(如 VGGT),获取精确的深度、占据空间(Occupancy)等几何约束。

模型架构图

2. 渐进式训练策略

作者设计了一个非常巧妙的训练流程:

  • 阶段 I:物理觉醒。使用结构化因果掩码(Structured Causal Masking),切断 action token 与原始图像的直接联系,逼迫模型必须通过“物理隐空间”来提取信息。
  • 阶段 II:任务导向。解冻连接,专注于轨迹生成的精度。
  • 阶段 III:强化策略。利用 GRPO(群组相对策略优化) 算法,在模拟器中根据安全性(NC)、路权合规性(DAC)进行闭环微调。

实验结果:全方位的制霸

在自动驾驶最权威的闭环评测榜单 NAVSIM 上,LaST-VLA 展现了统治级的性能:

  • 精度峰值:LaST-VLA-8B 达到了 91.3 PDMS,超过了之前的 Recogdrive 和 DriveVLA 等强基线。
  • 空间推理:在 SURDS 榜单上,它的偏航角判定和像素定位能力大幅提升,证明了几何对齐确实让模型看懂了 3D 场景。
  • 训练稳定性:相比于无监督的 Latent 方法,LaST-VLA 在强化学习阶段的收敛曲线异常平滑,避免了性能剧烈波动。

实验结果对比


深度洞察:物理对齐是 VLA 的必经之路

LaST-VLA 的成功揭示了一个深刻的趋势:End-to-End 不代表“盲目黑盒”。 早期的端到端方法由于缺乏中间表征,难以通过车规级审计;而基于大语言模型的 VLA 虽然增加了可解释性,却引入了符号化的效率开销。

LaST-VLA 提供了一种**“可解释的隐空间”**方案。虽然我们依然读不懂那些向量,但我们确信这些向量里承载着真实的深度信息和运动预测。这种将 Foundation Model(基础模型)作为老师,通过特征蒸馏而非文字生成的思路,极大地平衡了推理深度与实时性能。

局限性与未来展望

论文也诚实地指出,目前的模型主要依赖单前视摄像头。在处理大曲率转弯或复杂路口时,由于视野(FOV)受限,预测轨迹偶尔会超出可行驶区域。环视相机(Surround-view)的引入将是该框架迈向完全自动驾驶的下一步关键。


总结:LaST-VLA 告诉我们,未来的自动驾驶 AI 不必做一个滔滔不绝的说书人,而应做一个心中自有沟壑、具备时空洞察力的深思者。

Find Similar Papers

Try Our Examples

  • 检索最近一年内将几何基础模型(如 VGGT)或世界模型(如 Cosmos)知识蒸馏到端到端自动驾驶网络中的相关研究。
  • 深入研究“Continuous Latent Reasoning”在大型多模态模型中的起源及其在提升推理效率方面的理论支撑。
  • 调查 GRPO (Group Relative Policy Optimization) 在自动驾驶决策优化中相比 PPO 或其他 RL 算法的性能表现及优势分析。
Contents
[ICLR 2025] LaST-VLA:让自动驾驶在隐式时空空间中“思考”
1. TL;DR
2. 动机:为什么文本 CoT 会“带偏”自动驾驶?
3. 核心方法:隐式时空思维链(Latent Spatio-Temporal CoT)
3.1. 1. 结构化特征对齐
3.2. 2. 渐进式训练策略
4. 实验结果:全方位的制霸
5. 深度洞察:物理对齐是 VLA 的必经之路
5.1. 局限性与未来展望