长城正式宣布建立人工智能 Lab,到2023年9月AI La

作者 |德新

编辑 |王博

这一年最大的技术潮,不是大模型。

2023年初,ChatGPT掀起的浪潮迅速演变成席卷全球的人工智能技术浪潮。汽车工业也是不可避免的。各大汽车企业纷纷投资大型车型的布局。

  • 长城正式宣布建立人工智能 Lab,到2023年9月AI Lab已经有400多人了。这支队伍由长城智能副总裁吴会肖领导,AI Lab负责人杨继峰领衔。长城人工智能 Lab也被称为智能空间实验室。很明显,长城的第一站将是智能驾驶舱空间。
  • 吉利还在汽车研究所下设立了类似的机构,AI智能研究部。吉利汽车集团首席执行官甘家阅今年中期透露,吉利拥有全堆栈自主研发的大型模型技术。吉利自主研发的第一款大型车型可能是即将上市的银河E8。
  • 理想的学生将于2023年6月公布大型MindGPT,其原驾驶舱人工智能助手理想的学生将基于大型模型构建新一代多模态人机交互技术系统。MindGPT显示的功能是最近更新的OTA 5.0刚落地兑现。

虽然由于车端计算能力的限制,千亿级参数规模的大模型还没有搬上车,但是「BEV Transformer」今年,该框架几乎统一了所有制造商的智能驾驶感知系统。在智能驾驶和智能驾驶舱中,更大、更通用的模型正在取代许多特殊的小型模型的模式。

「人工智能大模型不是普通的技术和创新,而是技术范式级的创新。」北京大学光华管理学院组织与战略管理系副教授王铁民在最近的分享中总结了这一点。

什么叫「创新范式级」?托马斯,科学哲学家·库恩早在1962年就给出了定义,指的是「这些公认的科学成就在一段时间内为实践社区提供了典型的问题和答案」。

简而言之,在未来相当长的一段时间内,AI大模型将是许多技术问题的答案。

一、大模型上车,首先从驾驶舱语音开始

在过去的一年里,关于大模型上车给车端带来了什么,有很多讨论和实践。

长城正式宣布建立人工智能 Lab,到2023年9月AI La

腾讯智慧旅游副总裁钟学丹最近与北京大学光华联合举办了腾讯智慧旅游「AI 出行」在工业沙龙上,总结了人工智能赋能下的汽车新智能:

  • 首先,它重新定义了汽车的人机交互方式;
  • 第二,明年或未来一段时间,越来越多的端到端技术将出现在高速公路和城市自动驾驶中;
  • 三是舱驾一体化趋势将加快落地;
  • 四是汽车将成为一个开放的平台,它将获得更多的服务和体验内容,帮助用户解决实际问题。

长城正式宣布建立人工智能 Lab,到2023年9月AI La

驾驶舱领域,尤其是语音交互,可能是过去一年用户感知变化最明显的领域。

钟学丹认为,结合目前的大型模型,语音正在发生新的变化。交互模式正在从规则模式转变为更自然的模式;交互场景已经从过去单一任务的交互转变为基于多任务的应用;驾驶舱也从单一语音交互转变为多模式交互。

iPhone开启了消费电子触摸交互的时代。目前,绝大多数消费电子交互主要是触摸,汽车也延续了这种交互方式。但不同之处在于,手机、iPad和电脑都属于一个人大部分时间使用的私人设备,而汽车是一对多罕见的设备。因此,汽车主要是触摸和语音辅助的交互方式可能不是最好的解决方案。

理想汽车智能空间副总裁钩晓飞认为,大型模型的出现使语言理解能力达到了一个新的高度。因此,从智能空间的角度来看,理想希望促进未来汽车的主要互动形式,从触摸和对话,逐渐转变为对话和触摸。

由于对话交互,用户是完全开放的输入,下一阶段行业面临的巨大挑战是驾驶舱一端的输出也应该是开放的——也就是说,所有的UI都会变成生成式,UI的布局应该根据用户的语言逻辑自动生成,与用户的语义高度匹配。

与此同时,今天的驾驶舱应用程序提供的能力是基于每个公司的垂直该领域相互独立。例如,用户需要跨美团和地图两个应用程序来吃望京的食物。未来,不同的科技企业将拥有自己的Agent,它代表了各自公司的一般能力和私有领域能力。这些Agent可能会像人一样形成社交网络。在数字世界中,由Agent组成的社交网络通过这种新的接口形式连接每个家庭的能力。

二、下一代自动驾驶由大模型驱动

理想的汽车有一组内部数据。在60%的旅行场景中,只有司机在车内。因此,如果驾驶员不能通过自动驾驶解放,智能驾驶舱就无法发挥其价值。

与高度个性化的驾驶舱服务不同,自动驾驶是一种极其标准化的功能。勾小菲甚至认为,「自动驾驶一旦实现,就没有想象空间,但驾驶舱的人机交互背后有强大的生态和大量的服务,背后有无限的想象空间。」

目前,自动驾驶在技术研发和市场份额方面都处于快速增长阶段。

由于城市自动驾驶功能的快速发展,「BEV Transformer 占用网络 无图化」这是过去一年头部车企的主要研发方向。「BEV 上车」,有鸟瞰的视角(Bird’s Eye View)大型模型实现了多摄像头的集成感知,大大提高了智能驾驶感知的数据驱动比例。

去年的CVPR 2023年,UniAD论文工作还提出,将感知、决策、监管等模块整合到端到端网络中。端到端优化以深度神经网络为基础,以提升最终驾驶体验为目标,可以大大提高智能驾驶系统的开发效率。

下一个大版本的特斯拉FSD,V12也将引入端到端网络。

钟学丹认为,在过去,当行业开发自动驾驶系统时,它所做的是感知和规划分离,这与用户的驾驶行为和体验不一致。如何实现端到端自动驾驶的全链路模型,更加关注最终实现更好驾驶体验的目标,是一种更重要的解决方案。

除了对自动驾驶端到端技术架构的影响外,大型模型还有助于提高训练所需的海量数据标记。

在Mind GPT发布后,李翔曾表示,理想内部每年需要人工校准约1000万帧的自动驾驶图像,外包价格约6-8元,年成本接近1亿元。当使用大型模型进行自动校准时,过去需要一年的工作基本上可以在3小时内完成,效率提高了1000倍。

从车端到云端,大型车型正在全面推动自动驾驶体验的演变。

三、掘金大模型挑战

除了智能驾驶和智能驾驶舱这两个最常见的智能领域外,汽车从生产、制造、营销和服务的整个链条也可能被大型模型改造。

腾讯智能旅游副总裁钟学丹提出了一些案例。例如,在设计和研发领域,腾讯云人工智能代码助手的能力可以帮助开发团队完成编码、测试和质量改进。

AIGC生成的数字营销内容可以帮助销售团队更好地了解用户。例如,在销售汽车的过程中,每个用户对汽车都有不同的需求和想法。如何为TA创建独特的内容,如何更好地满足潜在车主的需求,将对销售转型有很大的帮助。

长城汽车AI Lab负责人杨继峰也告诉我们,人工智能已经开始用于造型设计,人工智能作品和人工设计作品用于图灵测试。目前,很难确定它是否是由人工智能设计的。

长城正式宣布建立人工智能 Lab,到2023年9月AI La

钟学丹还提到,在整个产业链中实施大型模型有三个挑战:模型挑战、数据挑战和计算能力挑战。

计算能力挑战是最容易理解的。目前,高计算能力GPU是整个行业的稀缺资源。

Hiev了解到,一家互联网巨头在年初向英伟下了10亿美元的GPU订单,但随着高计算平台的出口限制,GPU越来越稀缺,特别是去年9月/10月以后,许多企业的供应链团队加班解决了计算能力差距问题。

数据挑战源于对数据合规性和数据安全性的要求,特别是在自动驾驶领域,车辆感知数据处理不当直接影响地理信息安全,用户车内数据涉及隐私安全。

目前,尽管通用大模型正在上演「百模大战」,但对于垂直行业应用,其准确性仍不能满足应用要求,大型模型如何开发和调整行业应用,以及相应行业培训数据的质量提升,还有很长的路要走。

这是互联网巨头的浪潮「百模大战」无论是模型训练、计算能力建设还是数据挖掘,最积极的参与者和推动者都有丰富的储备。

一般的大型模型可以帮助行业开发者快速建立行业大型模型的基础。以腾讯为例,腾讯的混合元模型参数规模超过1000亿,预训练语料超过2万亿。目前,在腾讯云上,广告、营销、游戏、社交网络等场景中有300多个应用程序访问混合元模型。

腾讯还提供大型一站式商店——MaaS平台(模型即服务)帮助企业快速创建独家模型应用。在底层设施中,提供大规模的培训集群和高性能的计算网络,为行业带来最高的3.2Tbps带宽和3倍的计算能力,为大型模型培训提供智能计算能力支持。在面向大模型的特殊数据场景中,向量数据库可以帮助系统提高数据访问效率。

很多人称2023年为大模型的第一年,大模型的技术盛宴才刚刚开始,汽车作为目前最大的消费电子产品,可能成为技术效益最大的一个。

原创文章,作者:XEV研究所,如若转载,请注明出处:https://www.car-metaverse.com/202401/0413143628.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注