加载中

端到端模型能成让AI成为老司机吗?

张婷婷 2024/11/29 13:58

端到端模型虽具备模型训练效率高、运行效率高、泛化能力强等诸多优势,可其底层基于 AI 算法能力所带来的不可解释性以及对大量真实驾驶数据的需求,又使其在产业应用中面临着不小的阻碍。
那么,自动驾驶端到端模型究竟是如何发展演变的?它在实际应用中又会遇到哪些具体的难题?未来又将朝着怎样的方向突破前行呢?
本文将围绕这些问题,深入剖析自动驾驶端到端模型的分类、优势、挑战以及未来发展趋势,带您一同探寻自动驾驶技术在这条发展道路上的机遇与困境。

核心观点

虎嗅智库根据模块化程度、对规则算法的依赖程度等因素,将自动驾驶模型分为规则算法驱动的模块化小模型(a模型)、半拟人化部分算法规则驱动的模型(b模型)、拟人化无规则端到端AI大模型(c模型)。

虎嗅智库认为,C模型将是自动驾驶端到端模型的最终形态。当前,无论是学术界以UniAD为代表的模型,还是产业界以特斯拉FSD Beta v12为代表的感知决策一体化模型,仍处于端到端模型(C模型)过渡阶段。

端到端模型架构基于同一神经网络,由数据和算力驱动,具备模型训练效率高、运行效率高、泛化能力强、性能更易突破等优点。但是,由于底层能力是Al算法能力,其“涌现”能力使模型存在不可解释性,存在安全隐患,此外,缺少大量真实驾驶数据用于模型训练阻碍量产落地。

虎嗅智库研判,未来,以Data-driven为主Rule-Based为辅的大模型,借助语言大模型范式的tokennization为底层运行逻辑的大模型,以及泛场景、泛对象、多模态适用的通用大模型将是端到端自动驾驶模型未来发展趋势。

01.自动驾驶模型分类及优缺点分析

通用分类原则和依据

当前,汽车相关行业按照自动驾驶系统解决方案的模块化程度,通常将自动驾驶解决方案分为两大类。一类是传统的采用模块化部署策略的解决方案,整个自动驾驶算法体系可划分为感知-预测-规划-控制四个模块,典型代表为百度阿波罗的方案。模块化方案可降低算法要求和量化模块性能,与当前硬件和算法水平相契合,符合量产落地需求。

另一类是端到端的自动驾驶系统解决方案,即将自动驾驶系统中不同模块融合成一个完整的统一架构,通过摄像头、激光雷达、毫米波雷达等传感器输入信息,通过端到端的模型方案,直接完成从原始传感器数据到轨迹点或控制信号的直接映射,遵从人类驾驶汽车的第一性原理。这是自动驾驶端到端方案的终极理想状态,当前尚无落地案例。

虎嗅智库在通用分类仅以模块化程度为分类原则的基础上,综合考虑对规则算法的依赖程度,按照模型最后呈现的拟人化程度,将自动驾驶模型分为规则算法驱动的模块化小模型(a模型)、半拟人化部分算法规则驱动的模型(b模型)、拟人化无规则端到端AI大模型(c模型)。

a模型是传统自动驾驶系统所采用的模块化部署方案,整个系统拆分为感知、定位、决策、规划和控制不同模块,各个模块单独开发且运行都是基于算法规则设计,采用可视化手段,使运行逻辑具备可解释性。但因各个模块独立开发和部署,使得系统复杂,误差累积,数据计算量大,对硬件和算力要求高,算法规则构建复杂且难以覆盖全部场景,存在大量corner case场景。

b模型在a模型的基础上,实现感知、定位、预测、规划、控制组合模块化集成的部署模式。当前,学术界和产业界主要研究方向为感知决策一体化,通过端到端模型统一感知与决策两大体系,规避级连误差,提升视觉信息表达。

C模型是完全拟人化的无规则端到端AI大模型,是自动驾驶算法模型的理想状态,以原始传感器数据为输入,并产生规划和/或低级控制动作作为输出,理论上应具备可解释性,但目前尚无落地成果。


02.端到端模型优势及挑战

端到端模型定义

在前一章节中,虎嗅智库依据模块化程度、对规则算法的依赖程度对自动驾驶系统解决方案进行了分类。依据分类,理想化的端到端自动驾驶系统应是一个完全可微的过程,即以原始传感器数据为输入,并产生规划和/或控制动作,实现安全稳定的驾驶操作。目前,完整的end-to-end模型尚未落地,汽车行业对于“端到端自动驾驶模型”也尚未形成统一定义。

虎嗅智库基于理想化端到端模型所具备的特征及专家调研,对端到端自动驾驶模型定义如下:通过数据驱动,将连续时序的原始数据通过传感器输入,输出规划轨迹和规控动作,实现安全稳定的驾驶操作,并且具备可解释性和完全可微的自动驾驶解决方案。

端到端模型技术路线

对于端到端模型技术路线的演进,需从算法演进和产品形态两个层面来看。

在算法架构层面,端到端模型经历了基于神经网络的端到端控制模型,到基于监督学习的卷积神经网络的端到端模型,再到策略预训练模型的阶段,在认知领域不断加入越来越拟人化的deep learning,借助大模型提供的新的算法范式,解决更多自动驾驶问题。

在学术领域,端到端自动驾驶相关研究最早可以追溯到1988年的ALVINN,通过相机和激光测距仪输入,通过简易神经网络输出转向控制。Bojarski等人设计了端到端CNN原型系统。随着深度神经网络的发展,模仿学习和强化学习也进一步融入算法架构。

经过学术界的理论积累,到2021年,端到端自动驾驶开始体现在产品形态上。在合理的计算预算内,通过多传感器配置,实现多模态感知和Transformer高级架构捕捉全局上下文和代表性特征,通过NEAT、NMP和BDD-X等方法,实现学习过程监督和注意力可视化,提高自动驾驶系统的可解释性和安全性,提供各种不同的自动驾驶功能,覆盖更多的用户驾驶的里程。体现在驾驶功能上,则表现为记忆泊车、城市NOA、高速NOA等。

总结来看,端到端自动驾驶经历了三个发展阶段:第一个阶段,在诞生之初,端到端是指AI能不能像人一样开车;第二个阶段,到2021年,端到端是指能否提供覆盖用户整个用车旅程的自动驾驶的功能;第三个阶段,到今天,端到是指探索一套完整的算法解决方案,让AI像人一样开车。

端到端模型案例分析

到今天为止,端到端模型在学术界和工业界都有一些初步的探索,但尚无完整的落地案例,虎嗅智库借助借助学术界以上海人工智能实验室为代表的关于UniAD的探索案例,以及工业界以特斯拉为代表的关于FSD Beta v12的探索案例进行分析。

在学术界,上海人工智能实验室、武汉大学、商汤科技联合团队研究成果Planning-oriented Autonomous Driving(以路径规划为导向的自动驾驶),提出感知决策一体化的自动驾驶通用大模型UniAD。

UniAD模型将检测、跟踪、建图、轨迹预测、占据栅格预测以及规划五大模块,整合到一个基于Transformer的端到端网络框架下,通过通用token进行融合,将环视的图片以Transformer映射得到BEV特征,实现目标跟踪、在线建图、目标轨迹预测、障碍物预测。

UniAD的联合优化是建立在算法层面,通过连续时序的视频流输入,映射到BEV空间,通过transformer做推理,mapformer做实时地图构建,motionformer对前面两种结果进行特征融合,通过0ccformer预测多步未来占用,再通过Planner 进行联合优化。总体就是先训练感知能力,再训练模型整体,实现最终结果优化。实现端到端的多模块联合优化和可微分。

在工业界,特斯拉FSD Beta v12的自动驾驶解决方案采用感知决策一体化模型部署,将原本各自独立的“感知”和“决策”两个模块融合到一个模型中,采用纯视觉感知方案,通过影子模式实时收集数据,再通过收集来的大量的视频数据训练模型并实时建模,实现在驾驶时仅依靠车载摄像头和神经网络识别道路和交通情况,并做出相应决策。测试结果变现为:搭载了FSD Beta V12自动驾驶系统的车辆能够顺利应对绝大多数驾驶场景,泛化能力较之前基于专家规则驱动的模型有所提升。但是,其在测试中仍然存在失效场景,例如过路口时未准确识别红路灯,需要做出针对性改进。

端到端模型优势分析

端到端的自动驾驶方案将输入的原始传感器数据直接映射输出为轨迹点或低级控制命令,与分层式和模块化架构相比,它将感知、预测和规划结合到一个可以联合训练的单一模型中,方案结构简洁,提高了计算效率。端到端模型架构是由神经网络构成,由原来的规则驱动为主转变为数据和算力驱动为主,大幅提升模型的训练效率和性能上限。传统自动驾驶模型中,规则的占比较高,需要大量工程师编写海量规则代码并持续优化,模型的上限取决于规则代码的质量,而对于以神经网络为主的端到端模型,性能提升取决于数据和算力,更易实现规模化和性能突破。

端到端模型产业应用面临的挑战

1.现有感知决策一体化模型缺乏可解释性

“可解释性”是深度学习算法模型的重要评估指标,端到端的底层能力是AI算法的能力,Al是具备“涌现”能力的,当端到端模型突破某一临界值,性能会突然显著提升且不可控,无法保障任何极端情况下模型输出的安全性,并且具有不可解释性。黑盒的端到端模型,当出现问题时无法知道具体原因,无法定向调整,只能通过不断训练、调参、增加参数量,提高模型准确率,且无法保证“O”失误。

2.缺少大量真实驾驶数据用于模型训练阻碍量产落地

在传统的模块化模型中,在感知环节,用于训练感知模型的数据,只需要经过标注的图片,可以通过人工标注和自动标注的途径获取,获取难度较小。但端到端智能驾驶模型的训练,需要通过Deep learning学习人类驾驶行为,需要对大量连续时序的驾驶行为视频进行标注,作为数据用于模型的训练,数据的采集、标注以及闭环验证都比较困难。当前自动驾驶端到端模型的研究,主要集中在学术界,在仿真环境中进行训练和验证,在工业界尚无落地实践,这也使得量产落地进程放缓。

03.端到端模型未来发展趋势

Data-driven为主Rule-Based为辅的端到端模型

对于当前自动驾驶端到端模型的算法架构,普遍的认知是以大数据为驱动的,完全无规则的算法模型。Rule-Based的定义是发生过变化的,最早期的Rule-Based 实际上是一个明确的数学模型,Rule以内的问题,自动驾驶可以识别和解决,Rule以外的问题则不能解决,因此,当定义了某一种规则的同时,实质上也是丧失了很多驾驶的普适性。现在,Rule的定义变为大部分人在同样场景下驾驶行为结果的拟合,并且这种拟合具备一定的解释性。因此,虎嗅智库认为,未来的自动驾驶端到端模型,并不是完全没有规则的算法架构,而是应该以Data-driven为主,Rule-Based为辅,让规则与模型更好的融合的端到端算法架构。

通过语言模型范式的tokennization实现自动驾驶运行逻辑

根据端到端模型的定义,感知是输入,规划是输出,中间的逻辑和过程是黑盒子。能否借助语言模型的算法和范式,借助语言模型的tokennization,通过车队边开车,边做实时的语言化标注,将自动驾驶端到端模型变成一个语言模型,从而使模型的运行逻辑具备可解释性。

泛场景、泛对象、跨模态适用的通用大模型

目前,产业界尚缺乏用于自动驾驶决策与控制一体化大模型。但是,以深度神经网络为基础构建的决策大模型在产业界已有初步性成果,能够处理丰富的输入数据并生成准确的决策输出。例如上海数字大脑研究院的数字大脑决策大模型DB1,可支撑多智能体决策,并行处理上千个决策任务,具备强大的泛化迁移能力,验证了预训练模型在图文、强化学习决策、运筹优化决策方面的潜力。未来,自动驾驶端到端模型可通过对深度学习、强化学习、类脑算法等技术的不断探索,支撑泛场景、泛对象、跨模态适用的通用大模型落地。



文章来源:虎嗅智库服务

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭