数据标注作为自动驾驶技术的重要支撑环节,其发展历程、应用方式以及面临的种种挑战,都深刻影响着自动驾驶技术的成熟与落地。
那么,在自动驾驶数据标注领域,多种类型的企业参与其中,它们各自有着怎样的特点和优势?不同类型企业的数据标注能力又存在哪些差异?这些企业在解决甲方痛点、提升标注效率和保证标注质量等方面都采取了哪些具体措施?
本文将带您深入探索自动驾驶数据标注的方方面面,通过多个实际案例剖析不同企业的数据标注方案,揭示其中的要点与难点,让您对这一关键领域有更为全面且深入的了解。
核心观点
随着自动驾驶技术发展及方案演进,对数据标注需求发生变化,数据标注的数量和质量都呈现指数级上升,传统的手工标注已不能满足标注需求,自动标注伴随大模型的发展应运而生。
具备数据标注能力的企业可大致分为三种类型,第一类以主机厂为代表,为了更好满足自动驾驶发展需求,构建了人工标注团队及自动标注能力,第二类是自动驾驶Tier 1,具备自动标注的能力,有的企业也构建了人工标注团队,第三类是第三方数据标注公司,专注于数据标注业务,擅长人工标注团队的运营和管理。
自动标注可进一步划分为Al辅助预标注和交互式人工协同标注,后者是当前主流形式。当前,所有数据标注在完成自动标注后,仍需进行1-3轮人工标注和校验,人工标注员仍是当前不可缺失的主流力量。
引入自动标注能力后,标注效率可提升30%-80%不等,自动标注前,需在原有大模型基础上进行微调,保证效率提升30%以上的情况下,甲方企业才考虑引入自动标注能力。
自动驾驶数据标注技术简述及应用场景
衡量数据标注质量的指标
自动驾驶是人工智能大范畴下的一个分支,同人工智能一样,自动驾驶底层运行逻辑离不开算法模型的学习和训练,模型的最底层需要大量数据支撑。
自动驾驶算法模型的训练需要十分高质量的数据标注结果,自动驾驶表现直接受训练时使用的数据质量高低影响。自动驾驶算法模型从训练时使用的数据中学习规律,然后利用学到的规律处理未知的数据,当训练所用数据质量较低时,模型相当于学习到了错误的知识,用错误的知识处理未知数据,最终模型效果也会很差。
因此,数据标注是保证数据质量的重要环节,数据标注的方法、效率、准确率等指标,成为保证数据质量的重要因素。通过正确的数据标注方法,对数据进行分类,去除低质量和重复的内容,保证数据质量的一致性,留下高质量的场景数据进行基础训练,成为自动驾驶模型训练的必要条件。
数据标注的过程及方法
数据标注是将原始数据加工成适用于人工智能算法模型进行学习和训练的结构化数据的过程。具体到自动驾驶领域,则是通过对车辆行驶过程中的场景数据,进行分类和标注,将原本无标记的场景和要素数据与特定信息相关联,通过人工智能技术和人工劳动力,为数据集添加标签,使得自动驾驶机器学习算法能够使用这些数据进行训练,并从中获取知识。数据标注的过程需要根据不同的应用场景选择不同的标注方法,标注的方式也可以是单一的,也可以是多种方式的组合。
数据标注类型及对应标注方法
数据标注类型包括图像标注、文本标注、语音标注及视频标注,在自动驾驶场景中,多以图像标注和视频标注为主,也有数据标注公司开始尝试利用大语言模型结合端到端模型进行语音标注,如澳鹏Appen( 中国 ),属于相对前沿的技术探索。
数据标注方法演进
随着自动驾驶的发展,对数据数量和标注质量的要求越来越高,对应的标注方法也发生变化,由早期的纯人工标注向自动标注演进。早期的自动驾驶覆盖的场景相对较少,对数据量的需求也相对较少,人工标注的效率能基本满足标注需求,随着自动驾驶技术和方案演进,以及覆盖的场景越来越多,数据标注的需求量也呈现指数级增长,传统的人工标注效率已经不能满足标注需求,同时,人工智能飞速发展,大模型出现并开始应用于各个领域,自动驾驶领域也借助大模型的能力,衍生出预标注大模型,以及细分场景通过蒸馏得到的小模型,加上人工标注的辅助,形成人机协同的标注方式,优化和提升了数据标注的方法和效率。
数据标注企业分类及能力差异
从目前的数据标注市场来看,具备数据标注能力的企业可以大致分为三种类型,第一类是具备自动驾驶自研能力的主机厂,这类主机厂通常是为了满足自动驾驶技术研发的需求,设立了相关的数据标注部门,以特斯拉为例,特斯拉最初的数据标注业务是交由第三方数据标注公司负责,但随着自动驾驶方案演进,传统的人工标注已经不能满足其标注需求,加之服务过程中沟通成本较高,特斯拉选择自建数据标注能力,以更好匹配自身技术演进和业务发展需求;第二类是自动驾驶解决方案供应商,这类公司以Momenta、毫末智行等为代表,这类企业通常具备自动标注的能力,Momenta同时具备自动标注和人工标注的能力,拥有自己的人工标注团队,毫末智行则专注于自动标注能力的构建,暂时未设人工标注团队;第三类则是第三方数据标注公司,以澳鹏数据、曼孚科技、云测数据等为代表,这类企业多是从传统的人工标注起家,跟随人工智能的发展及自动驾驶方案演进,逐渐建立自己的自动标注能力。
案例1.毫末智行数据标注方案
甲方企业背景信息介绍
甲方企业是一家成立多年的传统数据服务公司,核心业务是数据标注,业务规模占据国内标注市场大部分份额,在数据规模、数据质量、交付效率等方面处于业界领先的水平,企业年均营收超过数亿元。标注客户包含自动驾驶,语音、图像等多种多样。该公司经营优势在于更低的人力成本和运营成本,在算法能力的投入较少。看好毫末智行的自动标注能力,希望通过毫末智行的自动标注能力,帮助他们解决掉标注的技术难题。希望通过跟毫末合作,实现技术降本,实现综合成本降低与效能提升。
甲方痛点分析
1.2D和3D数据融合标注:对于点云的数据,客户希望在点云内标注一个3D的物体,需要3D的矩形立方体包围框,同时需要关联图像物体信息,再在图像里面标一个2D的框。标注内容非常复杂,需要人工在空白的点云和图像里分别标注,工作量非常大,需要自动标注技术支撑。
2.连续时序标注:自动驾驶行进过程中,需要时序标注,第一帧和第二帧包括后面的连续帧场景很相近,通过人工标注需要逐帧标注,成本非常高,需要结合自动标注能力,比如每10帧当中,通过手工标注间隔标3帧,剩下中间7帧通过自动标注补充。
3.4D车道线和道路边缘线标注。除了动态障碍物,还有像地面车道线等静止物体的标注,需要通过雷达扫面,把采集来的碎片化单帧数据进行拼接重建,标注量非常大,仅靠人工难以完成,也需要自动标注提效。
解决方案
第一步,MANA智能数据体系准备。毫末智行的MANA智能数据体系,通过海量数据训练预标注大模型,具备数据自动标注能力。通过数据仿真平台,将真实数据和仿真数据,进行混合迁移学习,得到的预训练大模型,能识别和标注大部分场景。
第二步,数据获取和模型微调。在此能力基础上,毫末智行从甲方获取到原始数据后,先拿出一小部分数据,喂给原有大模型进行微调,形成匹配客户需求的预训练大模型,再进行标注效率测试,直到达到客户满意的标注效率。
第三步,数据自动标注。将全部的原始数据输入调试好的预训练大模型,进行数据自动标注,输出自动标注结果。
第四步,格式转换及人工标注。对自动标注的数据进行格式转换后,在此基础上进行人工标注(甲方自行完成,毫末智行尚未提供人工标注服务)
方案难点和痛点分析
难点1:标注公司本身对自动标注有最基本的认知,认为自动标注一定能降本,在此背景下会有一个预期,比如说降本超过20%,才值得去做自动标注。为达到甲方预期,前期需要对数据格式、规则、图像分辨率、点云类型等问题进行处理。所以前期的适配工作需要投入一些成本。
难点2:数据格式问题导致标注框体整体偏移。原数据图像分辨率不一样,导致标注框位置整体偏移,图像产生畸变,这是数据像素之间的差异导致模型不适用,这种技术上的bug比较普遍,针对这一问题总结的经验是,需要在进行数据标注前着重解决数据格式、像素统一等问题。
难点3:标注规则不同导致成本迁移等问题。数据标注尚处于标准缺失状态,原有预标注大模型与待标注数据无法完全适配,需投入成本对模型进行微调,标注过程中,甲方自身的标注规则也会发生变化,比如这个月是A1,可能两个星期之后变成A2,因为算法的规则和方案都会调整。
成效评估
标注效率提升:自动标注借助模型的能力,完成90%的数据标注,再通过人工检查有无问题,对遗漏掉的数据补充标注,总体标注效率大幅提升。
人力成本:对场景相近的图像,人工标注需要每帧都标,成本非常高,结合自动标注能力,人工只需间隔标注,中间的部分由自动标注完成,比如每10帧连续图像,手工间隔标3帧,剩下中间7帧通过自动标注补充,可以节省70%的人力成本。
资金成本:借助自动标注能力,例如对于像4D车道线或者道路边缘线的标注,可以在一个拼接起来的数据上进行轨迹点的自动标注,实现单帧标注成本有效降低,比如原来标一帧需要5元,现在对应的单帧成本降低成百上千倍,且拼接长度和范围越大,成本下降越明显。
案例2.曼孚科技数据标注方案
甲方企业背景信息介绍
该服务对象是某新能源汽车主机厂,公司成立于2014年,总部位于浙江省嘉兴市桐乡市。该公司是一家集创新设计、产品研发、生产制造及销售服务于一体的高新技术企业,拥有业界领先的独立研发机构,汇聚全球顶尖前瞻技术,构建了国际领先的科研体系,形成了“四国八地”的研发布局。自动驾驶技术被认为是汽车工业的未来发展方向,该主机厂积极研发自动驾驶方案,保持在技术革新的前沿并满足消费者对高科技汽车的需求。
甲方痛点分析
数据标注在自动驾驶系统的开发中至关重要,系统依赖于机器学习模型来理解和导航复杂的交通环境。为了训练这些模型,需要大量的高质量、标注精确的数据,如道路用户的图片、行为、交通标志和路面情况等。标注数据能够帮助算法准确识别和预测道路条件和其他车辆行为,从而确保自动驾驶车辆的操作安全和可靠,主机厂投入资源进行数据标注,是为了确保他们的自动驾驶解决方案能够达到最佳的性能和安全标准,甲方希望数据标注的准确性达到100%。
项目案例呈现
1.项目需求
该项目是一个4D点云车道线标注项目,数据标注量为数万帧,交付时的准确率要求达到100%,需要合同约定的周期内按时交付。
类型需求:4D点云车道线标注;
数量需求:数万帧;
质量需求:准确率达100%;
效率需求:数万帧按时交付(具体周期不便透露)
2.解决方案
第一步:原始数据获取及预处理。从甲方企业通过API接口的形式获取4D点云车道线原始数据,并对数据进行格式转换和预处理;
第二步:个性化定制及预训练大模型。通过自研的AutoML技术,快速获取预处理后的新数据,通过标注员先手动标注几千帧,送到自动标注算法平台,从模型仓库调取匹配度最高的模型,在原模型基础上,利用手动标注的数据重新迭代一轮,形成一套适配的预标注算法,保证项目快速稳定执行;
第三步:自动标注。将预处理后的待标注数据,送入DaaS数据标注平台,借助预标注大模型进行自动标注,在这个过程中,对于细分的二类场景,借助底层的2D产品训练的大模型基础上,通过快速蒸馏的方式衍生出一些细分的小模型,实现模型快速迭代,降低模型开发成本;
第四步:标注员校准和确认。通过预训练大模型完成一轮数据预标注后,标注员在预标注结果的基础上进行一轮校准,以及二次精修和确认,根据标注员的特长进行任务分配,快速形成柔性供应链,保证交付结果的准确性;
第五步:标注成果审核和交付。甲方对交付的结构化数据进行抽检,准确率达到100%,通过API接口的形式交付给甲方,完成项目交付。
方案难点和痛点分析
1.项目要求的交付周期比较短,需求比较着急,需要快速评估任务并进行任务分解,通过交付中心和柔性供应链的形式,快速形成标注员的力量,使得标注人员和自动标注平台结合后,实现标注效率的最大化。
2.点云项目对数据质量要求非常高,对于点云的贴边程度、朝向的准确度、跟踪的稳定性等指标要求很严格,要求数据标注全链条的每一环都需要保证100%的准确率。
成效评估
1.交付周期缩短:引入自动标注以后,通过自动标注和人工标注协同的方式,相较于纯人工标注,标注效率提升30%以上。
2.保证数据质量:通过预标注的方式,利用自动标注技术,对数据先进行一轮预标注,按照合同约定的交付标准,需在此基础上再进行一轮人工校验,确保100%准确率,达到交付标准。
3.价格和成本降低:引入自动标注技术后,标注效率提升,单帧标注的人工成本相应降低。
云测数据
甲方企业背景信息介绍
甲方是一家做视觉大模型的公司,为某车企自研自动驾驶解决方案提供数据标注支撑,该车企算法模型方案为BEV+transformer,需要进行数据标注用于自动驾驶感知算法模型训练。
甲方痛点分析
1.甲方自身具备数据自动标注能力,在这一背景下,需要把自动标注不能完成的部分交给数据标注公司,通过人工标注完成,从数据标注量来看,60%左右是自动标注,剩下的40%(cornercase数据)交由数据标注公司由人工完成。
2.甲方自身具备预标注的能力,但并不能最开始的时候就实现百分百的自动标注,希望跟数据标注公司合作,通过自动标注+人工标注的形式,将自动标注的能力融入到数据标注公司的能力中,提升综合效率。
解决方案呈现
1.项目需求
该项目是一个点云+图像时序数据联合标注项目,数据标注量为50万帧,交付时的准确率要求达到100%,需要在合同约定的周期内按时交付。
· 类型需求:点云+图像时序联合标注数据
· 数量需求:50万帧
· 质量需求:准确率98%+
· 效率需求:50万帧在合同约定的周期内按时交付
2.解决方案
甲方是一家做视觉大模型的公司,为车企提供BEV+transformer算法模型所需要的训练所用标注数据。需要云测数据提供数据标注业务,合作的过程中:
第一阶段,甲方首首先需要几千帧原始数据用于训练模型,原始数据需要通过人工完成标注,标注类型属于2D标注,通过人工完成标注之后,将数据反馈给甲方;
第二阶段,甲方通过云测数据提供的标注数据进行模型训练,训练后的模型具备了一定的自动标注能力,将这套自动标注的算法,以接口化的形式接入到云测数据的平台之中,通过API接口的形式将数据传送给云测数据;
第三阶段,云测数据接入甲方的算法模型平台后,同时获取到需要进行标准的数据和用于数据标注的平台,通过自动驾驶模型进行人机协同的数据标注,使得数据标注更快。比如原先需要很复杂的标注动作,但是现在只需要点一下,模型就会自动识别图形边框并完成标注,效率提高很多。
方案难点和痛点分析
该项目的核心挑战在于前期沟通,一方面是数据标注标准的沟通确认,另一方面是验收标准的沟通确认。
难点在于法规标准缺失的情况下,双方对标注和交付标准都存在一定主观性。以准确率为例,比如一个框的贴合度,有人认为3厘米是正确的,也有人认为5厘米是正确的。标注工作的成果最终是由人工进行验收的,就需要对验收的标准进行一个清晰的范围界定,范围在前期如果没有沟通好,就会增加成本。
成效评估
1.标注效率优化提升:一方面,通过API的形式传送数据比原先瀑布式的方式传送数据,效率提升1倍多;另一方面,借助模型算法,通过人机协同的方式进行数据标注,大幅提升标注速度。
2.单框标注成本降低:给到甲方的数据标注价格取决于标注成本,标注成本取决于两方面因素,一方是人工本身的成本,另一方面是工具和算法对人的赋能,该项目通过算法模型的加持,简化了人工标注的流程,有效降低单框成本。
3.标注准确率提升:甲方验收团队进行全检或抽检,通过人工校验,计算正确率,设置成95%或99%,如果达不到约定的正确率,则需要返工修改。
要点和难点总结
1.甲方在选择数据标注公司时,最在意的包含以下四个方面的指标:第一,交付周期,甲方对数据标注任务需求比较着急,需要数据标注公司在较短的时间内交付任务,标注公司应着重提升标注效率;第二,标注质量,通常要求保证98%以上的准确率,有的甲方甚至要求准确率达到100%;第三,标注价格,在标注效率和准确率相仿的条件下,甲方公司更倾向于选择价格较低的数据标注公司,以便于更好控制成本支出;第四,数据安全,要求标注企业保密。
2.自动驾驶方案和算法演进迭代速度快,标注规则不断变化,需要在标注时提供更深度的信息,此外,标注过程中场景切换较快,比如从城市道路场景切换至乡村的场景,原先的算法在新场景中不适用,标注效率下降。因此,对配套的标注技术和能力,以及模型更新的速度和时效性要求也非常高。自动驾驶向无图化演进,4D重建场景成为一项很基础的能力,这个过程中点云的数据量就会变得非常大,对标注平台和电脑配置要求提高。对动态的场景标注,需要跨帧对同一对象进行跟踪标注,对跟踪标注的稳定性要求极高,需要对模型反复调试。
3.各家公司数据分类标准不一,标注需求从定制化向通用性转变。人工智能发展还算早期,算法算力的标准、摄像头的标准都缺失,自动驾驶面临很多标准化的问题,到了产业链上的标注公司也一样,没有统一的标注标准。即使不同项目之间任务大类接近,但细分任务经常差异很大,不同客户对标注对象的定义和分类标准也不一样,针对单个任务做对应的标注算法模型,会导致成本、迁移等问题。
4.人员专业性及人才供应与需求不匹配。
随着自动驾驶方案演进,覆盖的场景越来越多,场景划分越来越细,对数据质量的要求越来越高,对标注人员的专业性及综合素质要求提高,现有标注人员的专业性和综合素质需不断提升。
注:该文章数据截止于2024年3月
注:文/虎嗅智库服务,文章来源:虎嗅智库服务,本文为作者独立观点,不代表亿邦动力立场。
文章来源:虎嗅智库服务