两年前,日经亚洲评论发表了一份报告:研究人员正在拆除Model3后发现,Autopilot Hardware 3.0不仅是自动驾驶系统和多媒体控制单元的核心,也是特斯拉离开其他竞争对手的关键武器。
高性能硬件平台是处理预期增长的海量数据的基石,是自动驾驶系统不断改进的技术支持。事实证明,特斯拉近年来一直处于自动驾驶团队的前沿。但显然,这只是一道开胃菜。数据是压轴选手。
在早期开发阶段,自动驾驶系统需要收集大量的道路环境数据,形成通过感知、决策、规划和控制多个环节的算法。随着自动驾驶水平的进一步提高,场景的长尾将显著增加,数据量也将呈现指数级增长。
大规模生产汽车上市后也是如此。我们仍然需要继续传输场景数据,培训和验证算法模型,并进一步优化迭代。因此,数据被认为是汽车公司开发自动驾驶技术的护城河。截至去年6月,特斯拉已收集了100万个36帧10秒的高差异化场景视频数据,累计数据约为1.5PB,远超Waymo。
如何获取、存储和使用更多的海量数据是过渡到更高级甚至完全无人化L5级自动驾驶的关键也是越来越多汽车公司关注超级计算中心的根本原因。
真正的主菜 无数据不智能
对于自动驾驶系统的建设,数据采集主要有两种模式,一种是通过采集车辆提前采集,另一种是通过大规模生产车辆的道路测量和回灌。一些计划从事自动驾驶系统开发的公司往往面临两个问题,很难建立数据采集团队,也更难建立大规模生产车辆传输团队。
结合IDC联合英伟达发布的白皮书需要真实车辆在真实场景中携带全套传感器设备,这通常会产生更高的测试成本。
同时,依靠真实的道路测试很难完全覆盖长尾场景;有些场景也很危险,很可能会增加测试成本。此外,仅仅通过真实的道路测试无疑会延长研发周期,难以满足当前市场对产品创新周期的需求。一旦数据成为一个缺失的项目,就不可能谈论自动驾驶。
长尾场景是指种类繁多、频率低的场景
在自动驾驶时代,模拟已经成为一种困难的需求。通过数字建模,自动驾驶系统可以在虚拟环境中测试和生成数据。
不仅测试速度优于真实物理世界的车辆水平,而且自动驾驶系统算法的测试也可以在组装原型车之前进行。通过预先收敛的算法精度,也可以进一步提高真实车辆的测试效率。毫无疑问,高效、准确的模拟工具尤为重要。
至于为什么需要智能计算中心,计算能力将成为模拟效率的瓶颈。计算能力不再是一两个GPU或者一个小集群可以建立发展的基础。
当数据变得越来越复杂和系统时,自动驾驶算法模型的复杂性不断提高,模型体积呈几何倍数增长,只依靠数以百计和数千计GPU并行运算可以在更长的训练时间内完成Transformer只有数据中心才能支持其他模型的培训。
超算中心是算法的基础,如果没有超算中心,就没有办法打通自动驾驶卡。英伟达汽车数据中心业务总监陈叶强调。这些要求对数据中心的设计、施工和运行维护提出了更高的要求。
在造车新势力中,小鹏率先与阿里云携手在内蒙古乌兰察布发布智算中心扶摇PFLOPS(每秒运算60亿次浮点)可以将核心自动驾驶模型的训练速度提高近170倍。威来、特斯拉等汽车公司都选择了英伟达提供的解决方案。
其中,威来采用英伟达HGX在此基础上,模型开发效率提高了近20倍,加速了数据中心基础设施的建设ET7、ET5等车型量产上市速度。HGX整合了NVIDIA GPU、Mellanox等待技术,等待NGC(NVIDIA GPU Cloud)中优化的AI软件堆栈。
特斯拉也使用英伟达GPU建立自己的超级计算中心。在英伟达自动驾驶客户中,GPU使用最大的是特斯拉,已经部署了120个DGX SuperPOD 分布式集群。
“DGX是英伟达最强的服务器,内置8张NVIDIA GPU,“SuperPOD英伟达推出的最小化超算中心有20个DGX。换句话说,特斯拉用了2400台DGX,近2万张NVIDIA GPU。
20台服务器可以做很多起步工作,但对于中国的汽车制造新力量来说,20台服务器的数量远远不够。据陈晔称,中国领先的自动驾驶客户需要300到600多台DGX。
自动驾驶算法模型培训、回放验证(推理过程)和模拟测试三个环节都离不开超级计算中心的作用。汽车公司或自动驾驶公司想做好自动驾驶模型培训,大型超级计算中心是必要的。这实际上是汽车公司建立自己数据中心的基本逻辑。
建超算中心,就完了吗?
但在开始量之前,还有几个问题需要思考。
不仅与服务器有关,还涉及系统建设,包括GPU集群、存储、高速网络、软件调度、机房管理、数据中心基础设施建设等。每个部分都涉及大量的组件,增加了设计阶段的难度;
此外,设备和软件的部署都需要很长的周期,在统一协调部署和集成方面存在许多挑战;最后,当数据中心设备安装部署时,如何保持最新状态,保持最佳工作状态也至关重要。
市场研究公司Forrester早些时候,在一份调查报告中,60%以上的受访者认为他们的数据中心在L3级阶段。
这项调查采访了197家大中型企业IT部门领导和技术决策者发现,云计算、人工智能等技术有助于数据中心网络提高自动化和智能运维水平,但由于相关企业仍依赖专家经验和员工技能,效率低,容易出错。
白皮书中还有一点,那就是无形的成本问题。汽车公司和Tier建设智算中心的预算一般超过1亿元,超过2亿元占五分之一。AI科技公司和自动驾驶独角兽也动驾驶独角兽,但这些仅限于早期投资。
开发自动驾驶技术是烧钱的工作Waymo、Cruise以公司为例,三五年烧几十亿美元很常见。更尴尬的是,一些自动驾驶公司继续烧钱,但没有进展。硬件是钱,数据是钱,人才是钱。
人工智能计算中心投资金额(人民币);图片来源:IDC
选择合适的供应商可能会事半功倍。针对这些挑战,英伟达可以提供从芯片到数据中心的端到端集成解决方案。
以SuperPOD就超级计算机而言,它有一个参考架构,支持从小规模快速扩展,可以从20到40、80、1000多,像积木一样不断扩展。同时,它具有持续的软件优化、白盒子交付等特点。这样,汽车公司就可以更多地关注算法开发,而不是数据中心。
至少在这个阶段,超级计算中心的竞争不一定是规模和服务器的数量,如效率和开发方法也将决定自动驾驶模型的进度不仅涉及硬件,还涉及开发AI框架、方法、管理平台等。谁能抓住机会,就有望先赢一局。
英伟达会是唯一的答案吗?
从过去的市场发展规律来看,高科技产业的第一梯队将掌握在少数公司手中。随着新技术人员的不断进入,绝对意义上的寡头垄断模式只会变得越来越脆弱。
英伟达、英特尔和目前的数据中心处理器市场AMD垄断格局几乎100%形成。GPU在计算芯片方面,英伟达和AMD连续对抗,前者占80%以上。目前自动驾驶算法模型的训练大多是GPU以英伟达为主GPU基于服务器构建服务器 建设超算中心的网络方案正在积极抢占市场。
围绕超级计算中心的战争已经开始。如果汽车公司和自动驾驶公司想获得第一名,他们必须迅速、更快地行动。
原创文章,作者:盖世汽车 徐珊珊,如若转载,请注明出处:https://www.car-metaverse.com/202212/281631835.html