激光雷达与摄像头融合真的比纯摄像头方案更优吗?
是的,证据很明确:将激光雷达与摄像头融合,其性能明显优于仅使用摄像头,尤其是在条件恶劣的情况下。2024年一项关于摄像头-激光雷达融合用于语义分割(识别车辆和行人等物体)的研究,在雨天和低光照条件下测试了系统——这正是自动驾驶汽车面临的真实世界挑战。与使用相同基于Transformer架构的纯摄像头系统相比,融合系统的准确率提高了5-10%[1]。这意味着在黑暗的雨夜,融合系统每100个物体中能正确识别出5到10个纯摄像头系统会遗漏或误判的物体。
2022年另一项关于三维人体姿态估计(即判断行人在三维空间中的肢体位置)的研究发现,采用激光雷达与摄像头相结合的多模态系统,相较于仅使用摄像头的基准方案,实现了22%的相对性能提升[4]。用通俗的话来说:如果纯摄像头系统正确估计行人姿态的成功率为70%,那么融合系统就能将准确率提升至约85%——这对于预测行人下一步动作而言,是一项具有实质意义的安全增益。
融合系统在恶劣天气或光线变化下是否更可靠?
是的,这正是最大优势的体现。2024年一项针对3D物体检测算法的全面调查,在模拟雨、雾、雪和低光照等真实世界问题的受损数据集上,测试了纯摄像头、纯激光雷达以及多模态系统。多模态(融合)方法始终展现出更强的鲁棒性——这意味着在环境条件恶化时,其性能下降幅度小于任何单一传感器系统[2]。该调查的作者明确建议,在评估实际驾驶场景中的感知系统时,应将鲁棒性与准确性并列为优先考量。
同一项2024年的融合研究[1]专门针对“暗湿环境”下的性能进行了基准测试,发现其相机-激光雷达融合网络相比基于全卷积神经网络的旧式融合方法,准确率提升了高达10%。这表明,融合不仅优于单一传感器,而且采用Transformer架构的新型融合设计在处理自动驾驶汽车实际遇到的复杂环境时,表现也越来越出色。
增加激光雷达会拖慢系统速度或使其不切实际吗?
未必如此——事实上,激光雷达反而能让整个系统更高效。2025年的一项研究提出了一种名为“激光雷达辅助令牌剪枝”(LaTP)的轨迹预测方法(用于判断车辆下一步的转向方向)。通过利用激光雷达点云提供的距离信息,系统能够安全地丢弃摄像头图像中多达75%与驾驶决策无关的视觉令牌,且不影响预测精度[3]。其结果是:推理速度大幅提升,同时平均位移误差仅为2.03米,碰撞率仅为2.35%——这意味着车辆仍能准确预测路径,且极少需要紧急制动。
2023年的另一项研究表明,将激光雷达与摄像头融合后,候选目标区域的数量可从2000个降至仅98个——降幅达95%——同时正确候选区域的比例提升了10倍[5]。这使得学习和推理过程更加快速高效。因此,激光雷达数据非但不会成为负担,反而能帮助系统聚焦关键信息,在降低计算负载的同时不影响性能表现。
本文引用的文献
CLFT:面向自动驾驶语义分割的相机-激光雷达融合Transformer
相机-激光雷达融合技术相比纯相机系统,将语义分割精度提升了5-10%,在暗湿环境下较旧融合方法更是实现了高达10%的性能提升。
自动驾驶中面向鲁棒性的三维目标检测:回顾与展望
一项综合调查表明,多模态3D目标检测(摄像头+激光雷达)相较于单传感器系统,在应对天气和光照变化时始终展现出更强的鲁棒性。
LaTP:基于激光雷达辅助的多模态令牌剪枝方法,用于实现自动驾驶中高效的轨迹预测。
借助激光雷达的令牌剪枝技术,在保持2.03米平均位移误差和2.35%碰撞率的同时,实现了对摄像头令牌75%的剪枝,显著提升了推理速度。
基于2D弱监督的自动驾驶多模态3D人体姿态估计
多模态三维人体姿态估计在Waymo开放数据集上,相较于仅使用摄像头的基线方法取得了22%的相对提升,相较于仅使用激光雷达的基线方法取得了6%的相对提升。
一种用于自动驾驶的激光雷达与摄像头融合新方法
激光雷达与摄像头融合技术将候选目标区域从2000个减少至98个(缩减95%),同时将正确候选比例提升10倍,从而加速了学习与推理过程。
