LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

[ICLR 2025] LaST-VLA：让自动驾驶在隐式时空空间中“思考”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 LaST-VLA，一种将自动驾驶推理从显式文本转向连续隐式时空空间（Latent Spatio-Temporal Space）的 VLA 模型。通过将隐式思维链（Latent CoT）与 3D 几何基础模型和视频世界模型对齐，该方法在 NAVSIM 榜单上创下了 91.3 PDMS 的新 SOTA 纪录。

TL;DR

自动驾驶的 Vision-Language-Action (VLA) 模型正面临一个尴尬的悖论：用文字思考（Textual CoT）太慢且容易胡言乱语（幻觉），而不思考（Direct Planning）又缺乏健壮性。LaST-VLA 提出了一种天才的折中方案：去文字化，但在隐空间（Latent Space）里注入物理约束。 它通过将隐藏层状态与 3D 几何和世界模型对齐，让模型学会了在“脑海”中构建稳定的时空图景，直接在 NAVSIM 榜单刷新 SOTA。

动机：为什么文本 CoT 会“带偏”自动驾驶？

在 LLM 领域，思维链级联推理是标配。但在高速移动的自动驾驶场景中，文字推理存在致命缺陷：

语义与物理脱节：模型可能写着“检测到左侧车辆”，实际生成的轨迹却往左撞，这种感知-符号冲突极具危险。
推理延迟：生成一长串文本描述会消耗大量 Inference Budget，对于实时性要求极高的驾驶任务来说，这种“过度思考”是奢侈的。
缺乏稳定性：此前有人尝试去掉文字直接用 Latent States 推理，但由于没有中间监督，模型非常容易崩溃（Collapse）。

LaST-VLA 的核心 Insight 是：推理不一定要变成语言，但一定要符合物理。

核心方法：隐式时空思维链（Latent Spatio-Temporal CoT）

LaST-VLA 的架构通过两个关键的“适配器（Adapter）”为模型装上了物理滤镜：

1. 结构化特征对齐

模型将推理过程中的 Hidden States 分为**动力学（Dynamic）和几何（Geometric）**两个流：

Dynamics Adapter (Φdyn)：对齐到视频世界模型（如 NVIDIA Cosmos），捕捉环境的动态演变和交通流预判。
Geometry Adapter (Φgeo)：对齐到 3D 基础模型（如 VGGT），获取精确的深度、占据空间（Occupancy）等几何约束。

模型架构图

2. 渐进式训练策略

作者设计了一个非常巧妙的训练流程：

阶段 I：物理觉醒。使用结构化因果掩码（Structured Causal Masking），切断 action token 与原始图像的直接联系，逼迫模型必须通过“物理隐空间”来提取信息。
阶段 II：任务导向。解冻连接，专注于轨迹生成的精度。
阶段 III：强化策略。利用 GRPO（群组相对策略优化） 算法，在模拟器中根据安全性（NC）、路权合规性（DAC）进行闭环微调。

实验结果：全方位的制霸

在自动驾驶最权威的闭环评测榜单 NAVSIM 上，LaST-VLA 展现了统治级的性能：

精度峰值：LaST-VLA-8B 达到了 91.3 PDMS，超过了之前的 Recogdrive 和 DriveVLA 等强基线。
空间推理：在 SURDS 榜单上，它的偏航角判定和像素定位能力大幅提升，证明了几何对齐确实让模型看懂了 3D 场景。
训练稳定性：相比于无监督的 Latent 方法，LaST-VLA 在强化学习阶段的收敛曲线异常平滑，避免了性能剧烈波动。

实验结果对比

深度洞察：物理对齐是 VLA 的必经之路

LaST-VLA 的成功揭示了一个深刻的趋势：End-to-End 不代表“盲目黑盒”。 早期的端到端方法由于缺乏中间表征，难以通过车规级审计；而基于大语言模型的 VLA 虽然增加了可解释性，却引入了符号化的效率开销。

LaST-VLA 提供了一种**“可解释的隐空间”**方案。虽然我们依然读不懂那些向量，但我们确信这些向量里承载着真实的深度信息和运动预测。这种将 Foundation Model（基础模型）作为老师，通过特征蒸馏而非文字生成的思路，极大地平衡了推理深度与实时性能。

局限性与未来展望

论文也诚实地指出，目前的模型主要依赖单前视摄像头。在处理大曲率转弯或复杂路口时，由于视野（FOV）受限，预测轨迹偶尔会超出可行驶区域。环视相机（Surround-view）的引入将是该框架迈向完全自动驾驶的下一步关键。

总结：LaST-VLA 告诉我们，未来的自动驾驶 AI 不必做一个滔滔不绝的说书人，而应做一个心中自有沟壑、具备时空洞察力的深思者。

Find Similar Papers

Try Our Examples

检索最近一年内将几何基础模型（如 VGGT）或世界模型（如 Cosmos）知识蒸馏到端到端自动驾驶网络中的相关研究。
深入研究“Continuous Latent Reasoning”在大型多模态模型中的起源及其在提升推理效率方面的理论支撑。
调查 GRPO (Group Relative Policy Optimization) 在自动驾驶决策优化中相比 PPO 或其他 RL 算法的性能表现及优势分析。

Contents

[ICLR 2025] LaST-VLA：让自动驾驶在隐式时空空间中“思考”

1. TL;DR

2. 动机：为什么文本 CoT 会“带偏”自动驾驶？

3. 核心方法：隐式时空思维链（Latent Spatio-Temporal CoT）

3.1. 1. 结构化特征对齐

3.2. 2. 渐进式训练策略

4. 实验结果：全方位的制霸

5. 深度洞察：物理对齐是 VLA 的必经之路

5.1. 局限性与未来展望