毫末智行3D重建大模型引入NeRF(Neural Radia

“人们习惯于把一切都分成黑白,但不幸的是,现实都是灰色的。”刘慈欣的话也是自动驾驶行业的真实写照。两所学校,重感知和地图,华山论道,暗流击水。但目前还没有最好的解决方案,让汽车完全摆脱人类的干预。

因为无论什么样的捷径,创造智能汽车都是唯一的途径。特别是当自动驾驶场景从高速延伸到城市道路时,提高终端的感知和认知能力将变得越来越关键。 

一方面,由于缺乏高度的信息,地图一直在发生变化。例如,北京半年内的道路拓扑变化平均每100公里5.06次,广州每天有两次改道施工。只有收集车辆不断收集和传输数据,才能确保地图的“新鲜”;另一方面,道路参与者是无序和随机的。除车辆外,行人、非机动车等不确定因素也成为自动驾驶进步的主要考验。

小鹏汽车自动驾驶副总裁吴新洲曾坦言:“与高速NGP相比,城市NGP可能是100倍以上的困难。”但要实现自动驾驶的大规模生产,我们必须通过城市道路的水平。

“九九八十一难”训练数据

截至目前,北京、重庆、武汉、深圳、广州、长沙等城市已允许自动驾驶车辆在特定地区、特定时间进行商业试运行。不久前,北京颁发了“无人驾驶汽车远程阶段”道路测试许可证。

自动驾驶无人测试从“副驾驶”、“前排无人,后排无人”到第三阶段——“车外远程”。一个永恒的主题是利用稳定的数据来完善自动驾驶感知模型。模型决定了功能的上限,数据是源驱动力。第一个问题是如何以更低的成本和更高的效率获得更有价值的培训数据?

距离城市道路通关,自动驾驶还差在哪?  

图片来源:天丰证券

听起来可能有些不可思议。以数据标记为例。过去,业内常见的做法是标记单帧2D图像,即每秒标记一帧,但真实视频由每秒10帧以上的图像组成。换句话说,中间有很多间隙没有标记,这部分已经成为“浪费”的资源。

不仅如此,随着自动驾驶数据标记转移到4D空间(3D空间 时间维度),数据以Clip相当于包含摄像头和传感器数据的短视频为最小标记单元,增加了人工标记的难度。

根据天风证券的研究报告,L3级以上的自动驾驶需要大量3级以上的自动驾驶D点云数据支持不仅需要对传感器返回的数据进行实时处理和分析,还需要大量弯道车道线、长期消耗和损坏造成的形状和反射失真,这也给识别的准确性带来了巨大的挑战。

因此,如果这些离散帧以Clip的形式扩展,人工标记和返工的成本必然会增加自动驾驶模型培训的成本。这也是特斯拉从外包数据标签到建立自己的人工标签团队,再到推广自动化标签的关键原因。小鹏等国内汽车公司也建立了全自动标记系统,效率提高了近4.5万倍。过去2000人一年的标记任务只需16.7天左右即可完成。

除了汽车公司,自动驾驶公司也在积极尝试,包括毫末智行在数据智能系统MANA的基础上推出了大型视频自监控模型。简单理解,屏蔽视频的某些区域,给出最后一帧,让模型猜下一帧,独立学习提取特征。

距离城市道路通关,自动驾驶还差在哪?

图片来源:毫末智行

然后将带有完整标记的Clip交给模型进行微调。循环,基于深度学习算法,提高模型的准确性和准确性。通过视频自我监控大型模型,毫末智行降低了98%的Clip标记成本。同时,鉴于服务器端运行的大型模型具有更高的泛化性,在训练完成并部署在终端自动驾驶平台后,预测能力更强。

然而,仅仅这些还不够。目前,自动驾驶对数据的渴望还远未结束。丰富的数据分布是培训和优化自动驾驶感知模型的前提之一。

对于自动驾驶系统的建设,无论是收集车辆提前收集数据,还是大规模生产车辆回收数据,都存在着较长的开发周期和昂贵的成本问题。因此,模拟技术被视为自动驾驶开发的加速器,在行业中得到了广泛的应用。通常,自动驾驶系统在装载和大规模生产之前需要进行大量的模拟测试。

然而,毫末智能银行技术副总裁艾瑞指出,从不同传感器的不同特性来看,模拟技术仍有很大的进步空间。例如,激光雷达的底噪一般低于毫末波雷达,对雨、雪、雾等条件的要求也非常不同,导致在同一场景下难以建模。

“好比看电影一样,CG即使动画做得很好,但与真实场景区分开与过度依赖仿真技术相比,过度依赖仿真技术毫米智行看中的是使用低成本的一般场景生成得到高成本的边缘场景corner case优势

这也是毫末智行3D重建大模型引入了NeRF(Neural Radiance Fields)技术的根本原因。NeRF是一种3D重构技术始于2020年,以几张图片合成360度全包围视角的特点,迅速风靡电商领域。

距离城市道路通关,自动驾驶还差在哪?  

放在自动驾驶领域,NeRF它不仅有助于重建场景数据,还可以从相应的角度进行调整。通过这种方式,可以模拟极端路况的车辆行驶,实现长尾场景的全面覆盖。此外,还可以模拟光调节、夜间效果等生成所需数据。

在增加NeRF生成的数据后,毫末智行在原始基础上至少降低了30%的感知错误率。数据越多越好。关键不仅在于纵向的“数量”,还在于横向的“丰富度”。面对数据山,积累是唯一的出路。

特斯拉拥有100万车队,小鹏拥有10万车队,毫末智行依托长城汽车的品牌规模,到2022年底累计里程已超过2500万公里。近20款车型配备了毫末HPilot系统,月增长率超过200%。预计到2024年上半年,毫末将完成HPilot在中国100个城市的计划。

自动驾驶“进城”  认知比感知更难

从大数据中锻炼感知能力是实现自动驾驶目标的第一步。此外,清华大学教授邓志东在接受国内媒体采访时指出,自动驾驶的核心技术困难之一是如何理解复杂的动态驾驶场景(DDS),确保自动驾驶的安全。

据说,人类驾驶是基于认知理解,依靠可理解的视觉感知和大脑来实现决策。相比之下,自动驾驶车辆很难在复杂的动态环境中获得人类驾驶意识、预测和认知判断能力。

早些时候,毫末智行基于transformer环视感知算法的模型(BEV),并逐步应用于实际道路。但CEO顾维浩也指出,BEV方案上车后,对车道线和常见障碍物的检测效果较好,各种复杂工况下的检测范围和精度也有明显提高。但仍有一些困难的挑战,尤其是视觉方案对城市道路各种异形障碍物的稳定检测。

一般有两种解决方案扩大语义白名单以识别轮胎为例需要收集大量的轮胎信息扩大样品容量的标注这种方法往往费时费力相比之下更常用的方法可能会事半功倍也就是说,没有必要理解什么是障碍物如果根据高度等信息判断对交通有影响避免或绕道

为此,推出了多模态互监督大模型和动态环境大模型。前者利用摄像头、激光雷达、毫米波雷达等传感器的不同特性,相互监督识别通用障碍物或通用结构。后者有点类似于视频自监督大模型,其目的是提高系统的感知能力。

毫末智行3D重建大模型引入NeRF(Neural Radia  

将BEV特征解码为结构化的拓扑点序列,利用自回归编解码网络实现车道拓扑预测。“在标准地图的导航提示下,让自动驾驶系统像人一样实现道路拓扑结构的实时推断。尽管这是一种理想的状态,但根据艾锐的说法,毫末接下来将致力于解决“二选一”的问题。如果地图导航路线明显错误,模型可以通过事先输入的地图先验信息进行纠错和改道判断。

许多人指出,自动驾驶的下一个战场将专注于城市导航辅助驾驶功能。正如上述,城市道路的不断变化和随机参与者的组成对感知提出了更高的要求,特别是城市十字路口的通过率已成为城市导航辅助驾驶的最大困难。

最近举行的 HAOMO AI DAY在河北保定和北京85%的路口拓扑预测中,毫末智行也交出了第一份成绩单,算法精度高达95%。虽然对一些小路和支路的判断还有待提高,但毫末算是城市NOH的第一场胜利。

除上述四大模型外,毫末还发布了人驾自监督认知大模型。与自动驾驶感知相比用顾维浩的话来说,“认知是行业的难题“特别是在自动驾驶升级到更高水平的过程中决策规划将是核心能力基于规则的传统认知算法已经进入瓶颈,难以取得突破。

一个突出的问题是,由于同一场景中不同司机的驾驶方式非常不同,完全基于大型模型拟合大量的人类驾驶数据,最终结果往往倾向于拟合平均值而不是最佳值。换句话说,系统学习的不是最好的方法,效果也不是很稳定。

全自动驾驶大规模着陆的必要条件是有足够的安全性,1%的错误可能导致其无法应用。如何让机器更像人,确切地说是一个成熟优秀的驾驶员,是自动驾驶决策规划面前的一个待解决的话题。

因此,从ChatGPT的流行来看,自动驾驶也可以从人类反馈中学习RLHF的训练方法,从模型开始获得奖励模型(reward model),让它知道什么是好的方法,什么是坏的,什么行为需要改进。

一般来说,绩效越高,工资越高。如果你想获得更高的工资,你必须跟上绩效。按照这种方法,培养高质量的模型更容易。例如,在转弯、环岛等场景下,通过率可以提高30%以上。

距离城市道路通关,自动驾驶还差在哪?

人的认知能力不是一蹴而就的,机器也是如此。虽然有大量的技术手段可以加速迭代过程,但它们可以卷积神经网络(CNN)、对抗网络的生成(GANs)、深度加强学习(RL)所代表的深度学习算法都需要数据和时间的积累来形成一个逐渐稳定的认知系统。

这也决定了自动驾驶不仅是数据战、模型战,也是算力战。

计算能力的竞争不仅仅是堆积GPU卡

在车端,大算力智能驾驶Soc卷出新的高度,英伟达的Thor和高通Snapdragon Ride Flex涵盖了所有的目标L5级市场。根据英特尔的计算,在自动驾驶时代,自行车每天可以产生大约4万辆GB的数据量。

不仅如此,小鹏自动驾驶专家陈林也在GTIC 与高速公路相比,2022年全球自动驾驶峰会也表示NGP,城市NGP代码量增加了6倍左右,感知模型数量增加了4倍,决策控制相关代码量达到了惊人的88倍。

如果采用单机训练AI算法模型,需要276天才能完成,即使是优化后的单机训练也需要32天。车辆需要大型计算芯片,云训练模型需要计算能力的支持。

NVIDIA汽车数据中心业务总监陈烨之前说过 ,如果汽车制造商专注于自动驾驶或技术,那么超级计算中心将是必不可少的。它甚至将成为未来的准入门槛。因为如果没有超级计算中心,就不可能进行软件的持续开发和迭代。

小鹏率先发布了智算中心的“扶摇” HAOMO AI DAY上面,毫末智行还与火山引擎合作发布了自己的智算中心“雪湖”·绿洲”(MANA OAISIS)。MANA OASIS计算能力高达67亿次/秒,存储带宽可达2T/秒,通信带宽8000G/秒。

距离城市道路通关,自动驾驶还差在哪?  

建立自动驾驶模型训练所需的智能计算中心,不仅可以堆叠服务器和GPU卡。主要需求体现在以下几点:

  • 计算能力。在一定程度上,计算能力可以代表可以做什么大模型,可以做多少大模型,可以支持多少人工智能工程师在这个“武术训练场”进行训练;

  • 存储效率。自动驾驶数据是片段的,最大的特点是小文件多,达到100亿。因此,随机存储这些小文件的效率也代表了模型培训的效率;

  • 存储带宽。自动驾驶大模型培训需要交换大量数据,需要高性能存储带宽(指存储器在单位时间内访问的信息量),使大量数据在大模型中顺利流动;

  • 通信带宽。所有这些计算能力都不能在单个服务器中完成,需要多个服务器的协同作用,这就需要集群的通信带宽;

  • 并行计算能力。自动驾驶所需的模型,如transformer,当它变得非常大时,它会变得稀疏,不需要更好的并行计算框架来利用训练中的硬件资源;

  • 创新能力。人工智能发展迅速,新算法层出不穷,这就要求汽车公司和自动驾驶公司尽快引进新技术和新模型。

自动驾驶数据不断积累,大型模型的复杂性不断提高,但新车的交付和创新周期不断缩小,对智能计算中心的承载平台提出了更高的要求。更重要的是,没有人知道未来自动驾驶的形式以及它能达到什么高度。在真正的大规模生产日期之前,只有储备粮草建设营地,我们才能巧妙地利用东风。

结语

1886年,卡尔·本茨为他发明的三轮车“Motorwagen“在申请了世界上第一项汽车发明专利后,汽车工业成为了制造业的典范。在不久的将来,电气化和智能化的浪潮将颠覆整个汽车行业,不仅是自动驾驶,还有汽车行业滚滚向前的车轮上的科技属性。无人驾驶时代即将开启。

原创文章,作者:盖世汽车 徐珊珊,如若转载,请注明出处:https://www.car-metaverse.com/202301/132237760.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注