今年以来,自动驾驶的落地、应用,似乎频繁地出现在新闻报道之中,但就目前乘用车产品所搭载的智能驾驶系统来看,其距离想象当中的自动驾驶还有着相当的距离。
在这样的势头之下,国内的厂商也加速着自家产品在自动驾驶方面的技术推进,其中大模型成为了备受推崇的方向之一。
不只是自动驾驶,从智能座舱到汽车产业链的设计、生产制造环节等,大模型似乎已经无孔不入了。
那么,大模型时代下,车端、路端、云端的自动驾驶布局将迎来怎样的机遇?又会对汽车产业带来哪些变革?这就是一件非常值得探索和想象的事情了。
在ChatGPT出现之前,语言交互类人工智能一直被用户诟病,无法连贯沟通、语义理解不准确、答非所问等等,让这些所谓人工智能助手应用喜提“人工智障”称号。随着ChatGPT的出现,其在自然语言理解能力上取得了极大的突破,无论是在与人类沟通的层面,还是在内容生产的层面,都能接近正常人类的水平,这也让它在短时间之内成为了整个人工智能领域中最炙手可热的产品。
“在我看来,人工智能最核心的能力,就是它在对事物、语言方面的理解上,能够接近正常人类的水平,并与人类的看法和理解保持一致。”毫末智能技术副总裁艾锐博士在谈及DriveGPT的应用及意义时表示。
他举了一个例子,当车辆行驶到路口的时候,目前大部分自动驾驶的策略是,一旦遇到影响行进路线的情况时,就会停车原地等候,直到与自己行驶路线上的所有冲突都过去后,再继续行驶,这显然没有像正常人类司机一样,随机应变处理驾驶方式。而这也正是自动驾驶系统不被用户使用,且渗透率不高的原因所在。
而大模型能够在自动驾驶领域里如此受到关注,也正是因为它能够理解这个世界,进而有希望能够让自动驾驶系统变得更像人类。在自动驾驶领域里,大模型可以分成几类,包括视觉大模型、驾驶决策大模型等等。而驾驶决策大模型,就很像自然语言处理类的大模型,就是如何去理解这个世界,从而进行决策。
这个其实很好理解,当我们在驾驶时,遇到突发情况后,需要踩油门,还是刹车,还是打转向,这些都是可以用文字描述出来的。而且人们在学习驾驶汽车的时候,也可以通过文字的描述理解如何驾驶,所以在驾驶决策的大模型里,就可以通过类似自然语言处理的方式进行训练。
但是,纯CV(计算机视觉)领域的大模型与自然语言或者驾驶决策之间,就没有必然联系了,一个纯视觉模型,主要起到监测和识别的能力。比如,一辆打开了车门的车,一辆打开后备箱的车,一辆翻倒的车,一辆前面摆着三角牌抛锚的车,纯视觉模型无法理解这四种情况分别意味着什么。但是在GPT出现后,多模态融合成为了现实,通过训练它能将自然语言与CV进行关联,当识别到场景图片、视频时,就能够理解其中所包含的语义,比如当看到摆着三角牌的车时,它能够理解这是一辆在行驶车道上发生故障的车辆,从而进行判断,做出减速、变道、超车等一系列驾驶决策,而在这样的常识判断之下,自动驾驶系统的驾驶行为也会更像一位老司机的操作。
再深挖一下,我们就能够理解这背后的逻辑。对于开车这件事,我们需要运用的是我们积累下来的常识,而常识的获取是要从语言当中得到的。我们没有办法只通过看视频或者图片就能理解这个世界,而是需要通过视频或者图片传达出的语义进行理解,这就好比我们在看视频和图片时,一定要有配音或者字幕,才能理解视频、图片要表达的意思。所以,在对多模态大模型训练到足够程度之后,它就可以通过常识进行“看图说话”,从而进行判断和决策。
“之前,没有人会通过文字对自动驾驶大模型进行训练,所以我们要把语言大模型的能力引入到DriveGPT当中,这也将会成为自动驾驶的突破口。”
对此,清华大学车辆与运载学院副院长、长聘教授李升波也认为,语言大模型出现对自动驾驶技术体系的冲击是革命性的,真正的挑战在每一个具体的应用领域,尤其与多模态语言不直接关联的领域。以自动驾驶为例,如何将核心模型做大,包括感知、预测、决策等模块,都存在不小的挑战,也有更多的创新探索方向。
虽然GPT大模型能够给自动驾驶带来从认知到决策全面的提升,但目前在车端应用上,仍然面临着不少问题。其中最大的问题就是,大模型上车对于车端算力的需求过大,就目前来看,短时间之内仍无法得到解决。
以自然语言处理领域的GPT-3模型为例,其需要的算力基本都在万亿Tops级别,这对于芯片的算力要求基本上要达到万级Tops以上,才能够实现大模型的运算任务。但是,目前的车载芯片算力基本都在几百Tops,最多也只能达到千级Tops算力,所以要将自动驾驶大模型应用到车端,还有很长的距离要走。
“目前,DriveGPT的应用,对于汽车算力的需求还是太大了,这个还需要一定的时间才能解决。同时在算力提升之后,对于汽车的能耗也会带来不小的挑战,未来需要找到一种低成本的兑现方式。所以从目前来看,这种能力只能部署在云端,让大家通过联网去使用。”艾锐博士表示。
不过,在车路云协同的模式下,路端大模型应用或许将为自动驾驶带来全新的解决路径和方案。
目前,车端做驾驶决策存在一个比较大的问题,就是随着车辆的不停移动,它的视角也是不断变化的,要理解当下场景的话,车端每次都是通过瞬间感知进行理解的,但是路端的设备能够对一个场景进行长时间的定向观察,那这些数据能够更清晰的让车在通过这个路口的时候,知道该怎么进行规划和操作。
车路云50人采访多位智能网联专家后,对于路端的大模型应用前景,得到一个共性结论,首先,路端并不受到车载能量等环境因素的限制,能够更好的满足高算力设备对于能耗的需求,所以在算力资源的配置上,能够比车端更加丰富;其次,路端相对于车端来说,相当于是从上帝视角对环境进行观察,通过大模型有可能实现更加全量的动态目标检测,比起车端经常受遮挡的视角,更具优势。
但从实际执行层面来说,由于路端受覆盖范围、实时性、丢包率等方面的客观限制,仅靠路端实现自动驾驶仍然面临巨大挑战,但通过车端、路端协同的形式,将大模型自动驾驶应用落地,肯定是最具性价比,且易于落地的方式之一。
单车智能还是车路云协同,这一直是自动驾驶领域里一直不停探讨的话题。相对来说,车企普遍倾向于单车智能的自动驾驶解决方案,但仍需要面对和解决算力、能耗、应用等多方面存在的问题;而对于自动驾驶技术企业来说,通过与云端协同的方式,去对自动驾驶系统进行训练,也是相当值得探索的方向。
艾锐博士认为,“从云端去训练一个GPT的模型,让它从云端的角度去理解交通,理解人们是如何开车的,然后再将云端的视角与车端的视角进行结合,那么这个自动驾驶系统一定是更优秀的。”
首先,通过车端利用纯视觉大模型,能够实现更精准的3D检测,再加上路端的视角优势,以及云的算力优势和成本优势,车路云协同的自动驾驶有系统,能够大幅提升不同场景的适用范围,以及系统鲁棒性。其次,在这种大趋势下,车企也会进一步认识到车端与路端、云端协同必要性,对于车企规划下一代高级别自动驾驶系统的产品定义和功能分配上,带来助力。
在车路云协同的方向下,汽车就像是开启了路端的“上帝视角”,并通过智能网联能力接收到云端的“场外指导”,再结合车端本身的判断和驾驶习惯,输出驾驶决策,这种类似于游戏中“开挂”的能力,让自动驾驶系统想不优秀都很难。
在汽车领域里,我们提到大模型,就很容易将它跟自动驾驶联系起来,但其实大模型能做的远不止自动驾驶这一件事情。
6月,奔驰宣布将ChatGPT接入到汽车语音助手当中,从而给用户带来更好的交互体验。而到了7月,奔驰又在官网发布公告称,正在车辆生产中测试ChatGPT,以优化生产流程和质量管理。可见,奔驰正在尝试将ChatGPT的能力,融入到产品及生产环节当中。
不止奔驰一家,在国内,包括东风日产、红旗、长城等车企,也都与百度旗下文心一言展开合作,将GPT功能融入到智能座舱当中。而在生产、设计等产业链环节上,奥迪、通用等车企,也都开始接入ChatGPT,以得到更高的效率和质量。
在艾锐博士看来,这样的情况一定会越来越多地发生在汽车的整条产业链当中,同时也可能会对汽车产业带来变革。“现在有一个被讨论比较多的观点——所有的事情都值得用大模型重做一遍,对于这句话最简单的理解就是,无论做任何行业任何事情,如果每一个环节上,都有一个知识非常全面、能力非常全面的人参与进来,那么显然这个事情的发展,就会达到一个新的高度。”
在面对新任务时,大模型不需要像小模型一样对任务重新进行适配,而是通过少量的投入,就能够实现各种各样的任务需求。比如,现在火爆的AIGC领域,我们只需要给AI设定一个身份,然后尽可能详细的说出我们的需求和关键词,我们就能同时得到文章、图片、PPT等一系列内容,但显然如果让一个人同时掌握写文章、绘图、写PPT等这么多技能,实在不是一件简单的事情。
对此,智能网联汽车专家朱聪对智车战略表示,大模型的引入,将对汽车产业从产业链、销售服务模式、运营安全监管三个方面带来变革。
首先,人工智能企业和负责路端、云端建设运营的新基建企业将进一步融入到汽车产业链中;其次,路端、云端在车辆自动驾驶过程中的重度参与,必然带来出行服务商业模式的转变;再次,车路云一体化体系下的自动驾驶运营安全保障应由车企、路端、云端运营商来共同承担。
除此之外,在大模型能力的加持之下,汽车的设计、生产等产业链环节,也将通过优化设计、生产、制造流程,以高效率、高质量的方式,协助企业打造出更加优秀的汽车产品,从这个角度来看的话,汽车产业在大模型时代下被重塑,也只是时间问题了。
在大模型技术迅速成熟的当下,它为人们的技术发展带来了更大的想象空间。随着大模型与自动驾驶、车路云一体化结合方向的不断探索推进,或许我们想象中的自动驾驶,能够更快地来到我们身边。