本文提出了 LaST-VLA,一种将自动驾驶推理从显式文本转向连续隐式时空空间(Latent Spatio-Temporal Space)的 VLA 模型。通过将隐式思维链(Latent CoT)与 3D 几何基础模型和视频世界模型对齐,该方法在 NAVSIM 榜单上创下了 91.3 PDMS 的新 SOTA 纪录。
TL;DR
自动驾驶的 Vision-Language-Action (VLA) 模型正面临一个尴尬的悖论:用文字思考(Textual CoT)太慢且容易胡言乱语(幻觉),而不思考(Direct Planning)又缺乏健壮性。LaST-VLA 提出了一种天才的折中方案:去文字化,但在隐空间(Latent Space)里注入物理约束。 它通过将隐藏层状态与 3D 几何和世界模型对齐,让模型学会了在“脑海”中构建稳定的时空图景,直接在 NAVSIM 榜单刷新 SOTA。
动机:为什么文本 CoT 会“带偏”自动驾驶?
在 LLM 领域,思维链级联推理是标配。但在高速移动的自动驾驶场景中,文字推理存在致命缺陷:
- 语义与物理脱节:模型可能写着“检测到左侧车辆”,实际生成的轨迹却往左撞,这种感知-符号冲突极具危险。
- 推理延迟:生成一长串文本描述会消耗大量 Inference Budget,对于实时性要求极高的驾驶任务来说,这种“过度思考”是奢侈的。
- 缺乏稳定性:此前有人尝试去掉文字直接用 Latent States 推理,但由于没有中间监督,模型非常容易崩溃(Collapse)。
LaST-VLA 的核心 Insight 是:推理不一定要变成语言,但一定要符合物理。
核心方法:隐式时空思维链(Latent Spatio-Temporal CoT)
LaST-VLA 的架构通过两个关键的“适配器(Adapter)”为模型装上了物理滤镜:
1. 结构化特征对齐
模型将推理过程中的 Hidden States 分为**动力学(Dynamic)和几何(Geometric)**两个流:
- Dynamics Adapter (Φdyn):对齐到视频世界模型(如 NVIDIA Cosmos),捕捉环境的动态演变和交通流预判。
- Geometry Adapter (Φgeo):对齐到 3D 基础模型(如 VGGT),获取精确的深度、占据空间(Occupancy)等几何约束。

2. 渐进式训练策略
作者设计了一个非常巧妙的训练流程:
- 阶段 I:物理觉醒。使用结构化因果掩码(Structured Causal Masking),切断 action token 与原始图像的直接联系,逼迫模型必须通过“物理隐空间”来提取信息。
- 阶段 II:任务导向。解冻连接,专注于轨迹生成的精度。
- 阶段 III:强化策略。利用 GRPO(群组相对策略优化) 算法,在模拟器中根据安全性(NC)、路权合规性(DAC)进行闭环微调。
实验结果:全方位的制霸
在自动驾驶最权威的闭环评测榜单 NAVSIM 上,LaST-VLA 展现了统治级的性能:
- 精度峰值:LaST-VLA-8B 达到了 91.3 PDMS,超过了之前的 Recogdrive 和 DriveVLA 等强基线。
- 空间推理:在 SURDS 榜单上,它的偏航角判定和像素定位能力大幅提升,证明了几何对齐确实让模型看懂了 3D 场景。
- 训练稳定性:相比于无监督的 Latent 方法,LaST-VLA 在强化学习阶段的收敛曲线异常平滑,避免了性能剧烈波动。

深度洞察:物理对齐是 VLA 的必经之路
LaST-VLA 的成功揭示了一个深刻的趋势:End-to-End 不代表“盲目黑盒”。 早期的端到端方法由于缺乏中间表征,难以通过车规级审计;而基于大语言模型的 VLA 虽然增加了可解释性,却引入了符号化的效率开销。
LaST-VLA 提供了一种**“可解释的隐空间”**方案。虽然我们依然读不懂那些向量,但我们确信这些向量里承载着真实的深度信息和运动预测。这种将 Foundation Model(基础模型)作为老师,通过特征蒸馏而非文字生成的思路,极大地平衡了推理深度与实时性能。
局限性与未来展望
论文也诚实地指出,目前的模型主要依赖单前视摄像头。在处理大曲率转弯或复杂路口时,由于视野(FOV)受限,预测轨迹偶尔会超出可行驶区域。环视相机(Surround-view)的引入将是该框架迈向完全自动驾驶的下一步关键。
总结:LaST-VLA 告诉我们,未来的自动驾驶 AI 不必做一个滔滔不绝的说书人,而应做一个心中自有沟壑、具备时空洞察力的深思者。
