北京2023年4月24日 /美通社/ — 近日,在全球权威的自动驾驶nuScenes比赛最新评测中,浪潮信息算法团队所提交的"IEI-BEVFusion++"算法模子在关键性指标nuScenes Detection Score(NDS)获得77.6%的高分,缔造了3D方针检测全赛道迄今最高成就。继去年以"DABNet4D"登顶纯视觉3D方针检测榜单后,该算法团队在面向融合感知自动驾驶范畴再一次实现突破。
nuScenes数据集是今朝自动驾驶范畴中最风行的公开数据集之一,数据收集自波士顿和新加坡的实际自动驾驶场景,是第一个集成摄像头、激光雷达和毫米波雷达等多种传感器,实现360度全传感器覆盖的数据集。nuScenes数据集提供了二维、三维物体标注、点云朋分、高精舆图等丰富的标注信息,包括1000个场景,拥有140万帧图像、39万帧激光雷达点云数据、23个物体种别、140万个三维标注框,其数据标注量比KITTI数据集横跨7倍以上。
如同人类的眼睛为大脑提供了70%以上的信息,在自动驾驶范畴,作为感知系统的主流模式架构,Lidar与Camera融合的3D多模态架构则为实现高鲁棒、高精度的3D方针检测提供了至关重要的信息输入,为业内提供更具通识性的解决方案。此次创nuScenes榜单成就新高的"IEI-BEVFusion++"算法模子正是应用了3D多模态融合架构的思路,将Lidar与Camera形成有效的交互融合。
-
Lidar与Camera的多模态交互融合,面临庞大挑战
3D方针检测作为自动驾驶至关重要的焦点任务,面向强大的情况感知,自动驾驶车辆通过普遍车载传感器的信息输入,实现精准的方针检测。以Lidar为例,它可以有效精准地捕捉空间信息,点云数据所具有的自然3D上风,最洪流平地提升了检测方针的测距精度、速度及偏向;而Camera的上风则在于,它具有丰富的纹理信息,强大的语义及图像上下文理解能力使得它可以有效地识别行人、交通指示牌等具象化的路面信息。因此,Lidar与Camera融合的3D多模态架构将深度信息与纹理信息形成有效的交互融合,为更精准的3D方针检测提供了一种全新思路。
然而,将两种截然分歧的模态几何和语义特征在一个暗示空间内相连系,这是一个庞大的挑战。 一方面,预估检测方针的深度信息是提升3D方针检测精度的关键,现有模态的融合通常关注于点云雷达及Camera虚拟点间的交互,但由于点云雷达远比Camera数据稀疏很多,传统的融合方式无法解决固有模态间的深度信息差距。另一方面,在跨模态的融合交互中,点云雷达涉及体素的邃密划分及大量的3D卷积计较,图像则由于多摄像头、高分辨率,复杂的特征提取网络,两者计较复杂且耗时长。因此,分歧形态的数据整合也为多模态融合模子的练习速度和检测精度带来了新一层算力压力。
-
NDS 77.6%, 多模态融合模子"IEI-BEVFusion++"刷新全赛道记录
IEI-BEVFusion++多模态融合模子,通过更有效的多模态练习架构、更邃密的特征提取网络、更强大的数据预处置能力,实现Lidar与Camera的高效特征提取与融合优化。激光雷达点云特征为Camera数据提供检测方针的切确3D信息,Camera发挥其纹理轮廓及语义理解上风,进一步邃密化点云区域特征,形成Liar与Camera的数据最大化互补,大幅优化了模子的检测精度。
基于Lidar与Camera的多模态融合模子架构,实现了三大焦点技术突破:
IEI-BEVFusion++ 多模态融合模子架构图
a) 首先,基于更有效的多模态练习架构,使得mAP(全类均匀正确率,mean Average Precision)均匀提升2%+
Transformer的多模态数据融合架构,通过引入基于Camera数据的BEV检测头,辅助融合模子练习,在不增加过量计较劲的同时,进一步增强语义信息特征,使得mAP(全类均匀正确率,mean Average Precision)均匀提升2%+。
b) 其次,邃密的特征提取网络,大幅提升方针的3D检测能力
一方面,采用多标准Lidar的特征融合技术,进一步增强其特征提取的感受野,提升其对于检测方针,尤其是大方针的表征能力;另一方面,Lidar信息可直接辅助优化Camera的深度猜测,采纳级联深度辅助策略,大幅提升图像的3D检测能力。
c) 同时,强大的数据预处置能力,实现模子精度与练习速度双突破
创新设计Lidar与Camera同步贴图,替换了业内传统的cbgs(类平衡分组和采样)技术。一方面增强了样本的平衡性与多样性,另一方面保证了分歧模态间的数据协调、同步,在提升方针定位检测精度的同时,保障方针速度、方位、缩放等相关指标的提升,练习速度更是较业内基准提升了4.5倍。
基于BEV融合算法的创新,"IEI-BEVFusion++"算法模子成功登顶3D方针检测任务(nuScenes detection task)全赛道榜单,将关键性指标NDS提升至77.6%。未来,浪潮信息算法团队将践行多角度切入,发挥算法、算力融合的全栈解决方案能力,推动自动驾驶范畴的技术创新发展。
备注:文内所涉术语诠释如下
1) BEV:Bird's Eye View,是指将特征信息转化至俯瞰视角
2) 多模态融合:也称多源信息融合或多传感器融合,是指综合两个或多个模态的信息进行猜测的进程
3) 鲁棒(Robust): 是指系统在一定的参数摄动下,维持其它某些性能的特性
原创文章,作者:carmeta,如若转载,请注明出处:https://www.car-metaverse.com/202304/250976490.html