“要么拥抱端到端,要么几年后离开智驾行业。”
进入智驾行业数年,智驾工程师秦风(化名)原本已经适应智驾行业激烈的内卷节奏。但当新技术“端到端大模型”来临时,他觉得首先被冲击的可能不是人类司机,而是作为工程师的自己。
这种焦虑并非秦风独有。不少智驾工程师告诉36氪,为了学习新技术,他们在工作加班的间隙看起了行业最新论文、去B站听课,有的甚至从研究生课本开始学起。
“端到端大模型”是今年智能驾驶行业的最新技术炸弹。
今年1月,特斯拉面向普通用户正式推送了 FSD(自动驾驶软件包) v12 的测试版本。该版本采用了端到端网络方案,不少用户称效果惊艳,比之前的v11版本要拟人得多。
马斯克曾介绍端到端的能力,称之为“图像端输入,控制端输出”。尽管多位行业人士向36氪表达,他们不相信特斯拉端到端方案在实操层面如此激进与神乎其技,但端到端依然如蜜般驱策着国内同行。国内玩家逐渐相信,在大模型、大算力、海量数据的驱动下,AI系统会像人类一样开车。
嗅到新的技术风潮,国内的车企与头部智驾公司已经付诸行动。华为、蔚小理、比亚迪等头部玩家都投入了团队与资源推进端到端方案;理想与蔚来两家车企,还成立了专门的端到端大模型部门,以更快推进技术落地。
高端人才的争夺也在明暗处涌动。在第一款车推向市场之际,为追上智驾进度,小米汽车挖来了前图森中国CTO王乃岩加盟。还有智驾行业人士告诉36氪,华为智驾甚至通过相关专利来锚定人才,做定点挖掘。
新方案的确在引燃国内市场。但这枚硬币另一面是,端到端强依赖于数据驱动,而非大量工程师的人力堆叠实现。特斯拉300人左右的团队规模,被当成范本在头部玩家之间传播。
然而行业现实是,当下头部玩家的智驾团队,人才规模几乎都是千人级。追赶智驾中的老牌车企比亚迪,有达3000人的软件团队,华为智驾团队人数也不遑多让。行情好的时候,工程师们普遍能拿到年薪百万的薪资包。
但不少智驾工程师都相信,如果端到端方案效果被进一步验证,车企智驾团队裁员将是大概率事件。
“200-300人都用不上。”一位前新势力车企智驾骨干坚定地对36氪说道。甚至深度学习背景的应届生,可能都比一些智驾工程师进入端到端项目更有优势。
一些智驾猎头也明显感受到了行业的人才满溢:车企智驾团队不再放出新岗位,人员开始要精简,“很多挂着的HC都是僵尸岗。”在一位猎头的最新动态中,他已经切换赛道,转而替机器人公司招揽人才。
被堵在门外的工程师
智驾工程师田炜(化名)告诉36氪,这场新技术变革中,比起感知模块、预测模块,规划控制模块的工程师受到的冲击会更大。
这主要因为端到端方案与传统智驾方案有明显差异。传统方案分为感知、定位、地图、预测、规划控制等多个模块,模块功能实现基本由工程师的代码驱动。感知、规划控制两大个部门的人员,往往占智驾团队人数大头。
但端到端方案的特点是,从工程师的代码驱动,变成了数据驱动。最理想的方式是,给系统输入图像,系统可以直接输出车辆的控制,中间的环节都由AI神经网络来完成。
从国内头部玩家的进度来看,引入端到端方案后,传统方案的多个模块通过AI神经网络改造,正在被整合成2个大网:感知大模型、预测决策大模型。“当下很多的方案都是在感知大模型的基础之上,接入一个预测规划大模型。”
更进一步的方案,会将感知预测决策规划集于一体,行业称之为“One Model”(一个模型)。
而新的技术路线,也对车企智驾团队有了全新的人才画像。
有智驾人士告诉36氪,端到端团队需要的人数变少,但人才门槛要求变得更高了。大模型本身要求团队有很强的深度学习背景,“搭建方案阶段,更需要很强的infra(基础架构)人才,对感知、规划控制每个模块都有深刻认知,了解不同芯片算力平台的支持力度、不同AI推理框架等。”
但负责模型搭建与训练人只占很小一部分。“可能团队90%的人都是在为端到端提供数据,以及数据闭环工具链支持等。”
“大模型本身就是一个很精干的团队。”有智驾人士说道。这也是OpenAI等AI科技公司早期仅有200-300人,但也能推出大语言模型ChatGPT,改变全球AI进程的原因。
对工程师而言,端到端技术带来的冲击也深浅不一。
有智驾人士告诉36氪,感知、规控两大模块中,感知大模型原本就依赖深度学习技术。尽管视觉检测路线从过去的CNN卷积神经网转向了基于Transformer的BEV,但工程师们的受到的影响并不大。
但对规控工程师而言,如果要加入端到端,几乎是重新切换赛道。有智驾人士告诉36氪,传统的规控工程师主要有几个方向:路径预测、路径优化、规则后处理,以及车辆控制。“都是蛮细分的学科,基本不相关。除了路径预测模块之外,其他方向的工程师基本没有深度学习背景。”
智驾工程师田炜告诉36氪,规控的人如果想转端到端,一个方向是模型训练本身,但需要很强的深度学习背景。“有可能研究深度学习的应届生,对模型的理解都比你好。”
其次,是数据挖掘和处理,为端到端提供数据养分。“但如果工具链的基建搭建完成,模型大概结构稳定之后,也可能不会再需要人。”最后是模型后处理,端到端大模型输出的轨迹不可信,仍需要一小部分工程师要写规则兜底。
工程师们的焦虑也来于此。“一方面是,端到端大模型本身不需要这么多人。另一方面是,大家都想做端到端,但公司的量产业务需要有人运转。”
一位智驾员工也因为公司当前的量产项目,错过了进入端到端项目组的时机而懊恼。但他也很纠结:即便进入端到端方案中,也是为新的方案兜底,但这不是核心的大模型本身岗位;
而如果留在现在的量产项目岗位,可以积累一段完整的智驾量产项目经验,未来几年也还能流向传统车企。
但另一种险境也会到来,一旦端到端方案向全行业普及,那么他积累多年的技术栈在几年后也会面临淘汰的风险。“可能就要离开智驾行业。”
技术分野、资源游戏
为了转入端到端项目组,工程师田炜直接从深度学习的研究生课程开始看起。
他找来深度学习的经典课程,以及一张显卡,对着课本上的实战课程,去实现一些简单的图像识别算法。“至少先把知识点吃透了,才能知道模型本身是怎么运转的。”
看书、实践训练两个月后,田炜才稍微感觉自己能看懂一些端到端大模型开源代码。
事实上,不只田炜焦虑,田炜所在智驾公司比他更焦虑。他告诉36氪,其公司与一家车企合作开发智驾量产方案,但车企内部也有团队在推进端到端,“整个公司就很焦虑,也早就启动了端到端计划。”
田炜表示,据公司了解,只要上千小时的视频数据,就可以训出来一个端到端demo,而这个量级的数据公司基本能搞定。
但田炜很清楚,以公司现有的资源,最多也只能支撑训练出来一个端到端demo,证明方案可行。从demo到量产,中间还有相当大差距。
而这场新技术的分野游戏,会最先体现在资源分野上。
特斯拉CEO马斯克就曾强调过数据对端到端的重要性:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。”
另一方面是算力资源,马斯克还大肆采购了英伟达的显卡训练,称到年底其人工智能训练算力将是9万张英伟达H100的等效算力。算力的储备与需求惊人。
这个门槛相当高。对于至今仍然赚钱艰难的智驾公司而言,一方面是不与车企合作,智驾公司的训练数据很难光靠自身采集得到;另一方面,云端的训练芯片在国内一卡难求,不少车企都在高价收购。“量产项目与融资都还不明朗,很难长期投入端到端。”
而另一位智驾工程师也感受到了无奈。在开发端到端项目小半年后,他接到了公司的通知,暂停端到端项目。原因是公司要集中精力与资源去开发当前的城市无图智驾方案,“端到端要消耗的资源太多了”。
端到端新技术未在国内真正落地,但对智驾行业的人才结构重塑、生态格局的冲击都已经开始显现。
尽管如此,头部玩家还是会想尽办法挤上这趟具有颠覆性意义的快车,而掌握数据资源、芯片资源、人才资源的巨头时代会到来。
(文中秦风、田炜均为化名。)
注:文/李安琪,文章来源:36氪,本文为作者独立观点,不代表亿邦动力立场。
文章来源:36氪