王玉:智能驾驶协同优化思考

2022年12月16日至17日,由安徽省发改委联合主办的2022全球智能汽车产业峰会在安徽省合肥举行。本次论坛围绕全球新变汽车发展新战略主题,本次论坛共设立5个主题论坛和2次闭门会议,与行业机构、高校、领先企业代表共同探索我国智能汽车发展新路径。

其中,清华大学电子系主任、教授在12月17日举行的生态论坛上 王玉发表了精彩的演讲。以下内容为现场演讲记录:

GIV2022|清华大学电子系汪玉:车载计算面临的挑战及未来目标

各位领导,各位嘉宾,很高兴有机会在这里分享我们对智能驾驶协同优化的思考,

我今天的报告从研究背景、深度学习模型优化、深度学习加速器优化、软硬件联合优化等几个方面展开。

首先研究背景。

论坛主要关注智能驾驶。我们可以看到,智能驾驶的应用已经开始慢慢走向现实生活场景,它也发生了很大的变化。为了应对这些变化,我们发现每辆车都有大量的传感器。同时,神经网络等算法开始应用于车载系统,包括感知和控制。因此,深度学习和算法的应用也得到了更广泛的应用。

这种大算法包括使用传感器带来的问题是,每个传感器背后的数据都需要分析,这可能会产生一种对计算能力要求较高的深度学习算法,因此对计算能力的要求激增。同时,算法迭代也非常快。我们可以看到许多算法会议,包括当前应用场景中使用的算法,并面临许多选择。因此,如何在车载计算平台计算能力或功耗和成本有限的情况下进一步提高计算能力是当前的核心挑战。

所以今天我的报告主要想和你讨论,如何使用软硬件协作实现不同的算法在车载平台,特别是有限的车载平台部署,提高算法的性能,是其准确性,运行效率,降低功耗,提高性能,所以目标是容易处理高效部署和安全可靠。

一方面,如果是固定硬件,如何实现深度学习模型的自动调优,即算法的优化。另一方面,如果算法不能更改,如何迭代硬件是深入学习如何支持加速器架构,第三是软硬件协同算法优化,这是最好的。但所有的前提是深度学习可以实现相同的功能,我的算法结构和深度学习结构可以选择不同的结构,相应的功耗需求,相应的安全需求不同,所以有这样的结构变化让我们有更多的空间做算法优化和软硬件协调优化。

首先,让我们来看看深度学习模型的卓越。

事实上,深度学习模型对算法架构的性能影响很大。为了获得最佳性能,算法的发展趋势将增加该模型的尺寸,但这实际上是一个移动终端,计算能力有限,实时要求矛盾。因此,在算法层面,我们应该设计高效的深度学习模型架构。一方面,人工设计耗时低效,因此,我们应该考虑如何使用自动网络架构的设计和优化过程,即这里显示的过程。我们稍后再简单说一下。

在这样一个神经网络架构的搜索中,在算法优化的过程中,我们可以看到搜索空间非常大。对于一些空间,大小为10倍或几十倍。此外,每次我们从这么多架构中搜索一个,我们都应该使用一些搜索策略,然后进行评估。单个模型的评估性能也很慢,例如,1-2GPU可以评估单个模型。所以这么大的空间,每个评估都很慢,如何在这么大的空间里找到合适的网络,这个过程很慢,你可以看到成千上万的GPU,所以它的耗时、耗力和效果都不够,所以整个过程都很慢。所以我们提到的叫高效NAS,也就是说,一方面,因为搜索空间很大,我想看看如何有效地挑选一些好的架构来进行高效的探索。第二个实际上是模型的评估很慢,也就是说,在我挑选了一些架构后,如何做一个很好的评估。在这里,我们可以看到两种典型的方法。一是在搜索空间大的时候高效搜索,主要是通过改进搜索策略,然后设计架构的性能预测器来加快探索空间。另一方面,其实是模型评价慢,或者如何改进评价策略,比如一次评价,甚至不训练,让我的评价更快。

一是完善搜索策略,加快基于预测器的搜索空间。事实上,从2018年开始,我们使用强化学习或预测器,以及我们所做的一个ECCV22的预测工作是基于预测器方法的贡献,也是目前的主要流派,可以减少用较少的评估数量获得更低的错误率。在这里,我们可以看到我们的评估是800次,所有权是2.56%,这实际上比2000次或2万次要好得多,这样我就可以快速搜索采样效率,在里面的空间里找到一些好的点。

二是完善评价策略。也就是说,在我们刚刚选择了一些点之后,我们如何将评估时间和训练过程缩短到几个前进过程,这是1000倍。因此,我们提出了提高模型评估区域相关性的思考,然后我们在ECCV22还提出,包括如何从课程学习的角度进一步提高单个评估器的速度,我们可以看到评估性能和真实性之间的相关性相对较高,越高C100的值或者IN16值越高,相关性越高,所以选择的架构越好。

另一方面,如何更快更准确地评估硬件平台的模型架构。事实上,我们可以看到有不同的硬件平台。我们在硬件平台上的表现实际上是不同的。因此,我们应该用一些代理指标代替硬件测量,甚至构建一些硬件模型性能预测器,使我能够了解硬件的性能和功耗,然后选择一个好的模型。我们有一些工作,但没有开始,这也是一件非常重要的事情。

因此,在深度学习自动优化的方向上,一方面是过程本身的加速,以及搜索空间自动化的设计、硬件感知,包括跨任务和未来的解释,是一些模型本身优化的重要探索方向。

第二,简单说说深度学习加速器的设计需要考虑哪些问题。

为什么要看车载问题?因为我们看到车载芯片目前在100T级,未来可能是100T级,100T级可能运行几十个模型,原来的深度学习加速器,特别是我自己在2015-2018年也做了一家初创公司,当时我们研究更多的是如何在前端更好地运行单个模型,现在我们必须运行40个或更多的模型在同一芯片,而且要满足低延迟、高可靠性的要求,所以单任务静态负载和多任务动态负载是智能驾驶的特殊需求。如何做好应对,我们建议支持多用户、高可靠性的切换。GPU事实上,从1999年到2012年,也有这样一个过程GPU支持多用户流程。从神经网络加速器的出现,比如电脑,到现在,我们一直在看如何利用时间和空分复用来支持多用户的虚拟架构。2020年,我们提出了空分复用的想法,2022年PC时空分的重用已经完成,调度架构可以协同优化,从而提高延迟性能。

简单来说,原来有一个大核。我在不同的时间做不同的任务,所以我发现这对不同的神经网络是不好的。2020年出来了能不能做空再用。现在要实现时间和空间的重用。硬件层面有大小核。在算法执行层面,可以选择不同的任务在不同的核上运行。这也是未来车载多任务硬件加速器必须考虑的一个方向。因此,我们认为这也很重要,但如何支持行业是我们应该考虑的一个问题。

三是软硬件联合优化。

刚才第一个硬件只改软件,第二个是软件如果不改硬件或系统软件和硬件协同优化,但我们讨论的是未来如何优化算法和硬件,现在我们的车载芯片,特别是L3.未来车载芯片将面临各种挑战,如功耗、散热、电池质量等。CPU、MCU、GPU等等都有,设计非常复杂。同时,当我们看到上层软件时,我们可以通过学习获得最好的软件和硬件。这不是我们家喊的,而是像Google他们还提出,如果传统的设计过程将算法和编译器分开进行,现在应该是设计和算法设计,这是世界上第一个提出并开始尝试的联合搜索和优化工作,当然,它的问题是,我的整个协作搜索空间非常大,虽然数据空间相对较小,因为我们的硬件空间已经确定,如果硬件空间,算法空间和硬件空间应该是相当大的空间数量级。

简单列出,我的不同模型,可能有不同的硬件架构,如何联合考虑这两件事,而不是单独考虑,我们想定制模型,也定制加速器,一方面,我们想做硬件感知神经网络架构搜索,是算法优化,我们想做硬件架构定制优化,我们在底部,如果我们考虑支持一些网络,我们使用这个算法和硬件协调搜索供应链可以减少设计空间的搜索空间,这样我们就可以在相对较小的空间内更快地找到优化解决方案。事实上,这是一个非常重要的问题,因为两者结合后,空间变得更大。

我们也看到世界,世界已经说了好几年了。在这件事上,协同设计比传统方法更好。无论算法的性能还是算法的精度性能,这里的性能都是指每秒可以处理的帧数,即速度。这是算法的精度。协同优化实际上在算法性能高、算法精度高的范围内,因此,传统方法不如协同设计,因此我们必须朝着协同的方向发展。我们刚才看到的例子可以进一步优化硬件层面,包括定制处理器架构ISA扩展和定制算子库,我们可以再次降低空间,这是规则,限制什么样的硬件适合这种算法。因此,我们可以看到整个联合优化的趋势是从每层分离的单独设计到两层协同设计,特别是算法和硬件协同设计、编译器和硬件协同设计。未来,算法、硬件和编译器必须统一在一起,但这件事还没有完全完成,包括我们看到的大工厂和我们在学术界都在朝着这个方向努力。主要困难在于设计空间太大。

今天我的报告只是告诉你车载计算的挑战和未来的目标,并指出有三种方法可以实现算法和硬件优化,包括单独优化考虑硬件单独优化算法和算法单独优化硬件和未来的联合优化,我希望这个方向可以继续与你讨论。

再次感谢会议的邀请。

(注:本文根据现场速记整理,未经演讲者审核)

原创文章,作者:盖世直播,如若转载,请注明出处:https://www.car-metaverse.com/202212/211229835.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注