Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

[CVPR 2026] Latent-WAM：端到端驾驶新突破，空间感知与动态建模的完美融合

总结

问题

方法

结果

要点

摘要

本文提出了 Latent-WAM，一种高效的端到端自动驾驶框架。该框架通过空间感知压缩世界编码器（SCWE）和动态潜世界模型（DLWM），在 NAVSIM v2 榜单上以 89.3 EPDMS 的成绩刷新了 SOTA，成为目前最强的 Perception-free 方法。

TL;DR

Latent-WAM 提出了一个紧凑且强大的端到端自动驾驶世界模型。它通过几何知识蒸馏让模型具备了敏锐的 3D 空间直觉，并通过因果 Transformer 在潜空间（Latent Space）内实现了高效的未来状态预测，最终在 NAVSIM v2 挑战赛中力压群雄，以 104M 的小体量达成了 89.3 EPDMS 的 SOTA 战绩。

背景定位：世界模型 VS. 显式感知

目前的端到端驾驶主要分为两条路线：一条是依赖显式感知（如检测、分割、占用网格），另一条是基于世界模型的学习。显式感知虽然直观，但标注成本昂贵且系统复杂；而现有的世界模型往往陷入“视觉细节”的泥潭（如视频生成任务），或者在空间认知（Spatial Understanding）上表现薄弱。

Latent-WAM 的核心直觉是：规划不需要完美的视频重建，但需要对空间几何以及动态趋势的深度理解。

核心方法：SCWE 与 DLWM

1. 空间感知压缩世界编码器 (SCWE)

为了解决传统方法中特征冗余的问题，作者设计了 SCWE。其精妙之处在于：

几何蒸馏 (Geometric Alignment)：利用冻结的几何基础模型 WorldMirror 作为“老师”，通过余弦相似度损失，将 3D 几何特征蒸馏到 DINO 视觉骨干网络中。
极度压缩：采用 16 个可学习的查询（Queries），将海量的多视角图像 Patch 压缩为极少量的 Scene Tokens，大幅降低了下游时序建模的计算量。

模型架构图

2. 动态潜世界模型 (DLWM)

DLWM 负责预测未来。与简单的单帧预测不同，它采用了：

因果 Transformer：通过帧级掩码（Frame-wise Mask）实现多帧并行预测，同时保持时间因果律。
3D-RoPE：在旋转位置编码中引入了时间、摄像头视图索引和 Token 位置三位一体的信息，增强了模型对时空间关系的追踪能力。
Ego 状态耦合：将驾驶指令、速度、加速度等自车信息与视觉特征深度融合，确保“行”与“看”的统一。

实验战绩：Perception-Free 的天花板

在 NAVSIM v2 榜单上，Latent-WAM 表现优异，特别是在安全相关的 NC（无故障碰撞）和规则遵循（DDC, TLC）指标上均处于顶尖水平。

实验结果对比

关键洞察：

消融实验显示，加入几何信息（Geometry）使 EPDMS 提升了近 1 个百分点，验证了空间感知对由于规划的重要性。
注意力可视化：有趣的是，经过几何蒸馏后的模型，其注意力显著集中在车道线、路口边界和障碍物周围，而不再关注天空或建筑等无关背景。

注意力图对比 (上图展示了蒸馏后模型对道路几何结构的精准对齐)

深度洞察与总结

Latent-WAM 的成功标志着端到端自动驾驶正从“堆算力、堆生成”向“精细表征、高效建模”转型。

局限性：虽然该模型在公开数据集的表现优异，但其作为一个离线学习的 Planner，在处理极端长尾场景（Corner Cases）时的鲁棒性仍需闭环仿真（Closed-loop）的进一步验证。

未来启示：几何蒸馏无需繁琐的 3D 标注，这为大规模自动驾驶系统的自监督演进提供了一条极具吸引力的路径。

发现相似论文

试试这些示例

查找最近其他利用知识蒸馏（Knowledge Distillation）从几何基础模型中提取 3D 表征用于端到端驾驶的论文。
哪篇论文最早在自动驾驶中引入了潜世界模型（Latent World Model）进行规划，本文在自回归机制上做了哪些具体改进？
探索将类似 Latent-WAM 的轻量化压缩 token 机制应用到基于大规模视觉语言模型（VLM）的驾驶任务中的相关研究。

[CVPR 2026] Latent-WAM：端到端驾驶新突破，空间感知与动态建模的完美融合

1. TL;DR

2. 背景定位：世界模型 VS. 显式感知

3. 核心方法：SCWE 与 DLWM

3.1. 1. 空间感知压缩世界编码器 (SCWE)

3.2. 2. 动态潜世界模型 (DLWM)

4. 实验战绩：Perception-Free 的天花板

4.1. 关键洞察：

5. 深度洞察与总结