赛道Hyper | 自动驾驶通用大模型:UniAD技术远图

商汤科技在其中,扮演什么角色?

北美时间6月21日,在CVPR(国际计算机视觉和模式识别顶级会议)上,出现该会议有史以来首篇以自动驾驶为主题的最佳论文。 

这有点像ChatGPT应用,底层技术源头Transformer模型,来自Google在2017年的神经信息处理系统大会上发表的一篇论文,最终成了如今AGI(通用人工智能)技术的应用突破口。在CVPR上,获得“最佳”桂冠的这篇论文,也可能会成为未来自动高阶驾驶的技术应用推进器。 

对高阶自动驾驶技术的意义在于,首次提出了感知决策一体化的自动驾驶通用大模型——被称为“UniAD”——开创了以全局任务为目标的自动驾驶大模型架构先河,为自动驾驶技术与产业发展提出了全新的方向和空间。 

40年来首篇自驾主题最佳 

CVPR,由IEEE举办的计算机视觉和模式识别领域的专业技术会议,英文全称“Conference on Computer Vision and Pattern Recognition”,是AI领域最有学术影响力顶级技术会议中的一个,每年举办一次。 

在2023年这届会议上,共有9155篇技术论文参与“最佳”角逐。 

最终结果,出现两篇“最佳论文”,另外一篇是最佳学生论文。也就是在9155篇论文中,总共有3篇获得“最佳”奖(Best Paper Award)的技术论文。 

其中,有1篇由上海AI实验室、武汉大学和商汤科技三方联合研究的主题最佳论文,即“Planning-oriented Autonomous Driving”(以路径规划为导向的自动驾驶),是CVPR从1983年开始举办40年以来,第一篇以自动驾驶为主题的最佳论文;同时也是该会议最近10年以来,作者第一单位来自中国机构的最佳。 

值得一提的是,这篇最佳论文的作者方之一,商汤科技,在本届CVPR中,另有1篇最佳论文候选、7篇Highlight论文和54篇被收录论文。业内人士告诉华尔街见闻,上海AI实验室参与这篇论文撰写的核心人士,均有商汤科技从业背景。 

论文提出的“感知决策一体化的自动驾驶通用大模型”,被称为“UniAD”,其核心技术价值是建立了一套端到端感知决策一体框架,融合多任务联合学习新范式,可实现更有效的信息交换、协调感知预测决策,进而能进一步提升路径规划能力。这也是该文获得Best Paper Award称号的理由。 

相当多的自动驾驶业内人士在谈及高阶自动驾驶技术时,均有类似观点,即“高阶自动驾驶在技术上并非难以逾越或不可解决,但法规难以同步”。这话除了字面意思,另外还隐含着技术涵义,也就是高阶自动驾驶在行驶时,与其他车辆或行人,还难以形成高效交互。这在本质上属于多任务应用需求范畴。 

这层涵义,其隐含的意思,也就是承认高阶自动驾驶的技术,仍未实现有效突破。此前,大部分技术均着眼于解决模块化问题,比如提升雷达扫描范围和精度、域控制器性能或自动驾驶算力芯片性能等等。这些努力都很难兼顾“多任务”和“高性能”应用需求,尤其是前者。 

UniAD(自动驾驶通用算法框架:Unified Autonomous Driving)由4个基于Transformer解码器的感知预测模块以及1个规划模块组成,整体上是一套自动驾驶通用模型框架。 

UniAD首次将感知、预测和规划等3大类主任务,以及包括目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划在内的6小类子任务,整合到统一的基于Transformer的端到端网络框架内,成为一个全栈关键任务驾驶的通用模型。 

在NuScenes真实场景数据集框架内,UniAD所有相关任务都达到SoTA(最佳性能:State of The Art),尤其是预测和规划效果远超其他模型。 

简单来说,就解决“多任务”问题,通过多个Transformer模块,UniAD实现了多任务层级式结合。对不同任务间的信息,也能实现全角度、多方位交互。通过多组查询向量,UniAD达成了物体与地图的建模,随之将预测结果传递至规划模块,用于规划安全路径。 

应用这套框架的自动驾驶全栈解决方案,能提升多目标跟踪准确率超过20%,车道线预测准确率提升30%,预测运动位移和规划的误差分别降低38%和28%。 

强在哪?能搞定多任务 

若观察该文的获奖理由,不难发现,解决“多任务”需求,UniAD从规划入手,将全栈关键任务从端到端,融合进一个统一的框架内。 

应当承认,高阶自动驾驶技术应用,在此前并非全是模块化解决方案,也有相当多的国际公司做了很多框架模式。 

比如,美国Waymo和Cruise等自驾公司采用“独立并行模型” 架构设计,美国特斯拉和中国小鹏汽车等,提出“多任务共享网络”架构模式,美国英伟达、德国马克斯普朗克研究所(MPI)和英国Wayve自驾公司等,用了“直接”端到端方案。 

UniAD首次将全栈关键任务端到端地包含在一个统一的网络架构中,提出了全新的“全栈可控”端到端方案,通过系统联合调优,取得比此前所有架构都要更优的应用效果。 

从技术角度看,UniAD用了多组查询向量(Query)串联起多个任务,实现网络信息传递,随后将所有融合的信息传至最终的规划模块。同时,每个模块的Transformer架构,通过注意力机制,可有效实现对查询向量的交互。 

在实际应用层面,UniAD能显著节省计算资源,避免不同任务模块的累积误差(此前单一模块化解决方案在多次运行后形成难以解决的冗余误差问题)。通过UniAD证明,一旦采用能兼顾“多任务”和“高性能”全栈可控端到端解决方案的框架,前序多任务能与后继任务相互支持,最终提升了驾驶安全的体验度。 

事实上,大多数端到端自动驾驶解决方案,也都关注了感知、决策和规划三部分。但是,推进这三部分形成的多任务在发挥实际作用时,存在较大差异,没有谁设计一个统一框架,将这些满足不同应用需求的任务,融合进一个整体。 

为何UniAD能解决多任务融合问题? 

研究团队采用了多组查询向量的全Transformer模型,同时,团队还立足于“规划”目标做全栈设计。 

举个实际应用例子,在车辆于晴天直行时,UniAD能感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速实现避让,待黑色驶离后再恢复正常速度直行。 

若处于雨天转弯场景,在视野干扰较大且场景复杂的十字路口,UniAD能通过分割模块生成十字路口的整体道路结构,做到大幅度左转规划。 

UniAD号称自动驾驶通用大模型,这应如何理解? 

这个框架奠定了多任务端到端自动驾驶大模型的基础,具有很强的可扩展性。通过增加模型参数与扩充海量数据双轮驱动,可进一步实现自动驾驶大模型,赋能行业应用与相关自驾产品落地。 

这段话是上海人工智能(AI)实验室李弘扬博士的解释。 

华尔街见闻注意到,UniAD解决多任务应用需求的能力,与商汤科技在今年3月14日发布的多模态多任务通用大模型“书生(INTERN)2.5”很可能有内在联系。 

“书生(INTERN)2.5”,商汤科技称之“有良好的图文跨模态开放任务处理能力,可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持”。其初代版本,由商汤科技、上海人工智能实验室、清华大学、香港中文大学和上海交通大学,于2021年11月首次共同发布,并持续联合研发。 

商汤科技称,书生(INTERN)2.5致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
相关文章