通常来说,人类文明从落后走向先进的标志有两个。
一个是更高级的能源获取,从木材走向石油,从石油走向电气化。另一个是更快的信息传输效率,从飞鸽传输走向电话,再走向互联网。
那么现在,这个标志应该再加上一条——“更智能的信息处理方式”。
OpenAI最新发布的多模态预训练大模型chatGPT,已经引起了全球科技领域的关注。这是一种用于处理序列数据的大模型。通过连接大量的语料库来训练模型,使得ChatGPT具备上知天文下知地理的能力,做到与真正人类几乎无异的交流。
就这样,多模态大模型技术闯入了各个领域。
众所周知,自动驾驶技术一直是科技领域的热门话题,其应用前景也备受关注。随着自动驾驶技术的不断发展,硬件设备的性能不断提升,自动驾驶的研发进入到了新的阶段。这时,多模态大模型迎来了它的用武之地。
作为一种新技术,多模态大模型为自动驾驶带来的不仅仅是改变,更是颠覆。
特斯拉CEO埃隆·马斯克于2022年12月3日在推特上写道:“ChatGPT好得吓人,我们离危险而又强大的人工智能不远了。”曾战略投资过哪吒汽车的360公司创始人周鸿祎,在日前一场直播中表示,如果企业搭不上ChatGPT这班车,很可能会被淘汰。
而小米汽车则在2月9日举办的投资日上谈到了ChatGPT。小米表示,目前小米的手机和汽车业务有很多AI大模型落地的场景。
当多模态大模型不仅仅用于日常聊天,而是用于工业科技,那将呈现出一种超乎寻常的效率。这种技术可以利用多种信息,来提高数据分析和测试验证的效率和质量。在自动驾驶技术方面,多模态大模型的应用价值正等待挖掘。
自动驾驶任务本就是适合多模态场景的。一项自动驾驶技术的研发,要和很多不同的系统打交道,比如环境感知、路径规划、交互系统等。而这些系统提供的信号又种类繁多,有视觉信号、雷达信号、地图数据、定位信息、文字和语音数据……
这些数据交汇在一起,加大了数据处理的难度,多模态大模型处理起数据来显得游刃有余。
中智行科技有限公司首席科学家任冬淳表示,当前自动驾驶的技术框架主要有两种,一种是分模块的技术框架,比如分为定位、感知、预测、决策、规划、控制等。另一种是端到端模型的技术框架。
当前分模块的技术框架在可解释性和实际行驶效果上显著领先,而GPT-4的出现,给出了一种自动驾驶端到端模型的可借鉴方案。“如果验证后确实效果提升明显,这将改变现有自动驾驶技术路线。”任冬淳说。
研发人员只要向大模型输入这些数据,就可以直接推理出行驶路线和交互策略。另外,在开发新功能或者改进现有功能时,研发人员也可以利用多模态大模型对功能进行仿真测试和对比评估,从而提高开发质量和效果。
这样一来,自动驾驶系统的效率和稳定性就会大大提高。
除了帮助汽车工程师进行数据分析和测试验证之外,多模态大模型也可以为自动驾驶技术本身提供支持。在设计自动驾驶系统时,研发人员可以利用多模态大模型来预测不同场景下的行驶路线和控制策略,并与真实数据进行比较和优化。
它可以利用来自不同传感器的多模态数据,来建立更准确和全面的环境表示和预测,并根据不同渠道的多模态数据,来规划更合理和安全的行驶路线和控制策略。这样就可以为自动驾驶技术提供更强大的感知、理解和决策能力。
目前,已经有自动驾驶企业开发了多模态大模型,用于辅助自动驾驶技术的训练和优化。
就在上个月,毫末智行宣布,自动驾驶认知大模型正式升级为DriveGPT,在自动驾驶模型算法方面,全面应用ChatGPT的模型和技术逻辑。
和业内很多自动驾驶方案商的路径相似,毫末的自动驾驶认知大模型采用的是RLHF(人类反馈强化技术)算法,通过不断输入真实人驾接管数据,持续优化自动驾驶决策模型。
也就是说,毫末的模型在不断学习千千万万个老司机的驾驶经验,进而帮助模型独立做出最优决策。
举个例子,如果汽车知道很多老司机在遇到前面有个障碍物就会绕道,那么汽车根本不需要知道前面的障碍物是个什么,而是采用“遇到障碍物就绕过去”的处理方式,这样可以大规模的降低自动驾驶数据处理难度。
这就是大模型的价值所在。
ChatGPT之所以能成为“很会聊天的AI”,也是因为训练的时候使用了RLHF算法,利用人类知识,让模型能判断自己的答案质量,训练自己逐步给出更高质量的回答。
现在,这种算法应用在了自动驾驶领域,让技术赋能研发。
目前,毫末智行已经完成DriveGPT的模型搭建和第一阶段数据跑通,现在的参数规模可以对标GPT-2的水平,大约7.74亿。虽然距离GPT-4的1750亿参数还有一定的距离,但这毕竟是一个光明的方向。
由此可见,多模态大模型在自动驾驶领域具有广阔的应用前景和潜力。它不仅可以提高自动驾驶系统的性能和鲁棒性,还可以提升用户体验和安全性。
但是,作为一种新技术,多模态大模型应用于自动驾驶领域也面临着一些困难和挑战,例如延迟难题、部署难题、算力需求等。这些问题,限制了多模态大模型在自动驾驶技术上的直接应用。
尽管多模态大模型在自动驾驶领域有着诸多优势,但要想将其有效地应用于车载系统中,仍然面临许多挑战和困难。
首先,多模态大模型迎来的就是“部署难题”。
在2019年,谷歌发表了T5模型,参数量110亿,如果以单张英伟达V100训练,则理论上训练一次需要66年,训练一次需要耗费数十万美元的计算资源,而OpenAI发布的GPT-4模型更是拥有1750亿参数。
这样的大规模模型,显然无法直接运行在车载设备上。况且自动驾驶领域还需要实现车辆与云端之间的高速通信和协同处理,这又涉及到网络带宽、稳定性、安全性等方面的挑战。因此,在保证多模态大模型可靠运行的前提下,如何实现其有效部署是一个亟待解决的问题。
其次,多模态大模型还需要解决数据来源的问题。
通常来说,多模态大模型需要海量的数据进行训练,而自动驾驶领域涉及到多种传感器数据,如雷达、摄像头、激光雷达等,这些数据不仅量级巨大,而且格式复杂,难以统一标注和处理。
自动驾驶领域的研发,还存在很多稀缺或者难以获取的数据,如极端天气条件下的场景、复杂交通事故等,这些数据对于提高自动驾驶系统的鲁棒性和安全性至关重要,但是很难通过单车的方式收集到。
我们在实际使用GPT-4时会发现,系统并不是瞬间就把整篇内容呈现在你的眼前,而是通过一行一行“敲字”,来逐步作出反应。这正是由于多模态大模型的规模十分庞大,这就导致了它的推理耗时增加。
在汽车高速行驶时,每秒都会行驶出几十米,很多交通事故往往是瞬间发生的。如果多模态大模型无法及时响应并做出正确判断,就有可能会造成严重后果。
因此,在保证多模态大模型性能不损失的前提下,如何降低其计算成本和延迟时间是一个亟待解决的问题。仅凭单车计算,根本无法满足自动驾驶的需求。
由此可见,多模态大模型在自动驾驶领域还存在着诸多技术障碍和瓶颈。要想将其成功地应用于车载系统中,需要解决延迟、部署、数据等方面的问题。
为了解决多模态大模型在自动驾驶领域中的技术难题,研发人员绞尽脑汁。在重重验证之后,百度、中智行等自动驾驶研发企业研发出了包括“知识蒸馏”在内的一系列处理方法。
喂养大模型需要数据,而传统的数据采集和标注方法往往需要大量的人力和时间成本,无法满足自动驾驶技术的快速发展。因此,有些企业开始尝试使用自主学习技术来降低数据采集和标注的成本。
任冬淳表示,多模态大模型数据量确实会非常大,但是各家公司都有一些检索数据的方法,可以提高数据使用的效率。另外,大模型在整个数据吞吐量方面有先天优势。
百度正是利用文心大模型自动驾驶感知的技术,来提升车载小模型的感知能力,另外,在数据方面,百度还利用了文心大模型图像弱监督预训练的模型来挖掘长尾数据,来提升模型训练的效果。
在计算方面,任冬淳直言,计算是大模型在自动驾驶应用重点要解决的工程问题之一。“chatGPT生成错误的答案影响并不大,而自动驾驶要是做出错误的决策有可能造成严重的事故。”
针对这类大模型计算,一方面,需要不断推进计算机硬件和软件技术的发展,提高计算性能和效率。例如,英伟达公司推出的GPU等高性能计算芯片,以及基于深度学习的高效算法,为多模态大模型的应用提供了强有力的支持。
另一方面,需要建立更加完善和可靠的计算流程。任冬淳就表示,他们会在工程上有一系列方法来简化流程,比如知识蒸馏、分层截断等。
知识蒸馏通过训练一个轻量化的小模型,来模仿一个性能更好的大模型的行为,从而提高小模型的性能和精度。研发人员通常会发现,小模型比单独训练时要好很多,甚至有时候可以超过大模型。
通过这类方式处理计算难题,会在一定程度上降低计算的难度,减少计算成本和推理时间,提高系统响应速度和准确性。百度自动驾驶技术专家王井东表示,Apollo采用的方案正是基于蒸馏的方案,做到大模型到小模型特征的蒸馏。
但若想突破单车计算瓶颈,还需要与“车路云一体化”的中国方案相结合,实现车辆、路网和云端的无缝协同,采用云端计算与边缘计算相结合的方法,来推进多模态大模型的实际应用。
放眼未来,多模态大模型在自动驾驶领域的应用是一项非常具有潜力的技术,但是要想将其真正应用于车载系统中,仍然需要克服许多技术难题和瓶颈。
通过综合采取硬件和软件、数据和算法、车路云一体化等方面的措施,才能实现多模态大模型的高效部署和应用,推动自动驾驶技术的不断发展。
站在GPT-4的肩膀上,自动驾驶技术正在越来越强大。技术竞争日新月异,多模态大模型还会给智能网联产业带来哪些惊喜?每个人都在拭目以待。