毫末自动驾驶路径清晰,核心技术点可概括为大算力、大模型、大数据-CarMeta

毫末自动驾驶路径越来越清晰，核心技术点可概括为大计算能力、大模型、大数据三个词。

作者｜肖莹

1月5日，第七届 HAOMO AI DAY在北京举行，毫末分享了自动驾驶技术迭代的思考和实践。

就个人感受而言，毫末团队是学习能力强、最愿意分享的自动驾驶公司之一。就像特斯拉一样AI DAY，HAOMO AI DAY也成为了解自动驾驶技术进步的窗口。

这次HAOMO AI DAY毫末智行宣布智算中心正式成立，命名为雪湖·绿洲”（MANA OASIS）。以此为支撑，毫末也发布了MANA视觉自监督大模型、多模态互监督大模型、3模型D重建大模型、动态环境大模型、人驾自监督认知大模型。

经过不断的迭代和进化，自动驾驶路径更加清晰，核心技术点可以概括为大计算能力、大模型、大数据三个词。

先投资大算力基础设施智能中心绿洲发布

计算能力竞争不再局限于车端，开始进入云端，即构建智算中心。

在国内自动驾驶玩家中，毫末智行首先意识到了这一问题，并开始建设智算中心。

在这次AI DAY上面，智算中心的名字毫末宣布——雪湖·绿洲”（MANA OASIS）。

由毫末智行和字节跳动云服务平台火山引擎共同打造，每秒浮点运算达到67 存储带宽每秒2亿次T，每秒800通信带宽G。

2022年8月，小鹏汽车发布的智算中心扶摇算力为600PFLOPS，也就是说，每秒浮点运算60亿次。当时，小鹏称之为计算能力最强的自动驾驶智能中心。

对比算力，MANA OASIS已超越扶摇，成为中国自动驾驶行业最大的智算中心。

自动驾驶的发展已经进入了一个关键阶段。数据获取效率和处理效率是算法进化的关键。大量的产品数据、大规模的数据培训和大型模型的应用都对计算能力提出了更大的需求。

值得一提的是，MANA OASIS是毫末建设的私有云。

就公共云或私有云的主题而言，我们咨询了许多自动驾驶公司。目前，大多数玩家仍然专注于公共云。人们普遍认为，自建的核心在于性价比的考虑。随着数据存储和处理量的增加，公共云没有成本优势。私有云的建设一方面更有针对性，另一方面也是基于性价比的考虑。

同时，据毫末介绍，在数据管理能力方面，为了充分发挥智算中心的价值，让GPU 经过两年的研发，毫末建立了全套大规模训练Data Engine，百P数据筛选速度提高了10倍，随机读写小于500微秒。

500微秒意味着什么？毫末解释说，对于数据处理，我们通常会考虑它有多快。但随着技术的发展，数据处理的真正瓶颈并没有卡住GPU不是显卡本身不够快，而是卡在通信上。

只有达到500微秒的文件读取速度，才能支撑数十万、数百万clips一起训练。如果达不到这个水平，整个训练速度会因为阅读文件而卡住，这意味着相当于很多GPU开始计算之前，等待文件系统读取数据。

在计算能力优化方面，毫末与火山发动机合作部署Lego高性能算子库，ByteCCL 通信优化能力和大型训练框架。

基于训练效率Sparse MoE，通过跨机共享，可以完成万亿参数大模型训练，百万clips训练成本只有100卡周，训练效率提高了100倍。

毫末预计，2023年，超级计算中心将成为自动驾驶企业的入门级配置，更多的企业将开始投资建设，毫末是第一家探索企业。

构建五个算法模型，跨代升级感知模型

在介绍毫末打造的五大模型之前，我们先来解释一下如何理解大模型。

大模型也可称为基石模型（fundation model），属于一种深度学习，在AI该领域具有里程碑式的影响。

在2022年达摩院十大科技趋势中，达摩院称之为从弱人工智能向人工智能突破探索。

大型模型的主要特点包括参数大、数据大、计算能力需求大三个方面。基于这一特点，大型模型在自动驾驶领域的应用具有一定的优势。

自动驾驶采集的数据种类繁多，包括不同传感器采集的数据、实际路测数据、模拟数据等。由于模型容量太小，小型模型无法填充足够的数据，因此很难沉淀有价值的信息。大型模型保证了模型容量，可以通过大量数据填充学习关键信息。

在解释了这个背景之后，让我们关注毫末MANA五大模型：

1.视觉监督大模型。这个大模型的核心价值是让毫末4D clip标注自动化100%，标注成本降低98%。

为了更低的成本和更有效地获取更高的价值数据，需要解决从离散帧自动化扩展到clips形式问题。

毫末首先利用海量videoclip，通过视频自我监控，预训练一个大模型，用少量人工标记clip数据进行Finetune训练检测跟踪模型，使模型具有自动标记的能力。

然后，提取与标记的数千万单帧数据对应的原始视频组织clip，10%是标注帧，90%是未标注帧，然后这些clip输入模型，完成90%未标记帧的自动标记，然后实现所有单帧标记方向clip100%的自动转换，同时减少98%clip标注成本。

2、3D重建大模型。其核心价值在于构建数据生成和模拟场景，以获得大量数量corner case(长尾场景)。

面对从真实数据中完全积累corner case困难而昂贵的行业问题将在毫末重建爆炸性的三维NeRF该技术应用于自动驾驶场景重建和数据生成。通过改变视角、光线和纹理材料，生成高真实性数据，以低成本获取normal case，产生各种高成本corner case。

根据毫末介绍，3D重建大模型生成的数据不仅比传统的人工显式建模效果更好，而且成本更低NeRF生成的数据后，感知错误率也可以降低30%以上。

3模态相互监督大模型，主要是为了更准确地识别异形障碍物。

在实现车道线路和常见障碍物的准确检测后，我们正在考虑和探索城市各种异形障碍物的稳定检测。

激光雷达作为视觉监督信号，直接利用视频数据推理场景的一般结构表达。一般结构的检测可以很好地补充现有语义障碍物的检测，有效地提高自动驾驶系统在复杂城市条件下的通过率。

4.动态环境大模型进一步减少了对高精度地图的依赖。通过这个模型，可以预测道路的拓扑关系，让车辆在正确的车道上行驶。

为了最大限度地减少对高精度地图的依赖，毫末面临着实时推断道路拓扑结构的挑战。为此，毫末在BEV(鸟瞰图)feature map基于标精地图作为指导信息，使用自回归编解码网络BEV特点，解码为结构化拓扑点序列，实现车道拓扑预测，使感知能力能够在标准地图导航提示下实时推断道路拓扑结构。

毫末认为，解决交叉口问题实际上解决了大多数城市NOH问题目前在保定和北京，毫末对路口拓扑推断准确率高达85% 95%。但毫末也承认，这个模型离大规模应用还有一定距离。

人驾自监督认知大模型，能使驾驶策略更加拟人化。

在探索使用大量人驾驶数据，直接培训模型做出拟人化决策方面，为了让模型学习高水平驾驶员的优秀驾驶方法，新引入了用户的真实接管数据，同时使用RLHF(从人类反馈中强化学习)先训练思路reward model选择更好的驾驶决策。

这样，毫末在掉头、环岛等公认的困难场景中，通过率提高了30%以上。AGI领域爆火的ChatGPT 同样的想法，通过人类行为反馈选择最佳答案。

在五大模型的帮助下，MANA最新的终端感知架构集成了过去分散的多个下游任务，形成了一个更端到端的架构，包括通用障碍物识别、局部路网、行为预测等任务，实现了终端感知架构的跨代升级。

HPilot携带近20款产品，自动驾驶进入3.0时代

在技术落地层面，毫末也恢复了2022年的进展和后续规划。

自发布以来，毫末HPilot智能驾驶系统已经通过了6次OTA升级，迭代到3.0版本。HPilot配备魏牌、坦克、欧拉、长城炮等近20款车型，辅助驾驶用户行驶里程超过2500万公里。

HPilot 3.0也将正式量产交付，毫末城市NOH软件封版，达到交付状态，具有高速、高水平的城市场景辅助驾驶能力，首款配备城市NOH该车型将于2023年上市。

毫末城市通过重感知和轻地图技术NOH定位是大规模生产的城市导航辅助驾驶。

毫末预计将于2024年上半年完成HPilot实施中国100个城市计划，实现点点互达。到2025年，全场景规模更大。NOH将更快地落地，进入无人驾驶时代。

第六届毫末AI DAY毫末首次提出了自动驾驶3.0时代的概念，这是对自动驾驶技术发展阶段的判断。

我认为自动驾驶的发展将经历三个阶段。在硬件驱动的1.0时代，最典型的特点是感知能力主要依赖于激光雷达，认知方法依赖于劳动规则，汽车成本高，自动驾驶里程数据约为100万公里。

2.0时代的软件驱动，AI它被广泛应用于汽车中，但仍然是小型模型和小数据训练的方式。传感器的识别结果开始集成，但它仍然是基于结果的后集成模式。认知模式仍以人工规则为主，自动驾驶里程数据在100万至1亿公里之间。

在数据驱动的3.0时代，数据可以训练自己，自动驾驶玩家的重点，转移到有效获取数据，并将数据转化为知识。

从全球角度来看，特斯拉以数据驱动为标志，率先进入自动驾驶3.0时代。在中国，以毫末智兴等渐进式自动驾驶企业为代表，通过大规模生产和高级辅助驾驶场景实现数据闭环，促进自动驾驶技术的快速成熟。

在此次AI DAY毫末作出判断，2023年自动驾驶将全面进入3.0时代。

与此同时，我们也做出了判断。2023年，智能驾驶的用户体验将从品尝转变为用户依赖。随着大量配备高速导航辅助驾驶系统的智能汽车进入市场，智能驾驶系统的能力不断提高，用户的使用时间和粘性也在增加，智能驾驶系统的核心价值将逐渐从体验转变为功能依赖。

－END－

毫末自动驾驶路径清晰,核心技术点可概括为大算力、大模型、大数据

相关推荐

发表回复

分享到：