自动驾驶行业的未来由数据标注来撑起丨曼孚科技

自动驾驶经过最近十多年的发展，从技术、产业到政策监管都有了长足的进步。

尤其随着环境感知、智能决策、控制与执行系统等核心技术的快速发展与成熟，自动驾驶汽车已经从实验室走向道路实地测试及商业化落地应用的阶段。

以国内为例，目前已在广州、长沙、上海、武汉、沧州、北京等多地展开自动驾驶出租车载人测试，开始尝试将自动驾驶出租车作为出行服务提供给普通民众，验证运营模式以及商业模式。

不过，从自动驾驶商业化发展的趋势来看，这仅仅是比较初级的商业化尝试，目前自动驾驶出租车在车辆数量、封闭测试里程数量以及载客对象方面都有着十分严苛的要求，而造成这种现象的主要原因是相关技术的不成熟。

L3级别以上的自动驾驶系统主要由感知、定位、预测、决策和控制五部分构成，每一部分都不可或缺。其对于计算机视觉技术的需求度十分之高，系统需要对传感器采集的点云图像数据进行处理，构建车辆行驶环境，为预测和决策做依据，这对于算法的准确性和实时性有着极大考验。

目前自动驾驶的视觉技术主要应用有监督的深度学习，是基于已知变量和因变量推导函数关系的算法模型，需要大量的标注数据对模型进行训练和调优。

换句话说，想要让自动驾驶汽车更加“智能”、自动驾驶算法能够更加从容应对复杂多变的道路环境，背后就需要有海量且高质量的真实道路数据做支撑。

这些数据主要以车载摄像头采集的2D图像数据和激光雷达采集的3D点云数据为主，场景包括换道超车、通过路口、无红绿灯控制的无保护左转、右转，以及一些复杂的长尾场景诸如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等等。

通常情况下，自动驾驶领域相关算法训练对于这些标注数据的需求是海量的。在一些世界级的自动驾驶比赛中，主办方往往会提供近亿张图片以及数十万张标注图片供参赛团队训练使用，通过使用这些真实路况数据对算法进行不断优化，才能保障无人驾驶车辆正常可用。

除了数量要求很高以外，标注数据集的质量要求也很高。人工智能行业的一个共识是，标注数据集的质量直接决定算法模型的质量。通常情况下，自动驾驶企业对于标注数据集的准确率要求为高于95%，在某些情况下甚至要超过99%。

随着国内自动驾驶行业的飞速发展，该领域的数据采集和标注需求已经成为数据服务供应商的主要项目之一，且自动驾驶算法应用仍待优化，数据需求缺口仍在，市场远未饱和。

据艾瑞咨询相关统计数据显示，2018年自动驾驶行业基础数据服务规模为5.76亿元，预计2025年将超24亿元，行业数据总任务量超一亿张。

如何解决海量高质量数据集的供给成为了当下制约自动驾驶行业进一步发展的关键问题之一，也是摆在一众数据服务企业尤其是数据标注企业面前亟需解决的核心问题之一，从某种意义上来说，数据标注行业在某种程度上已经成为了制约自动驾驶商业化落地的绊脚石。

未来，提高数据交付能力与提高数据质量将成为数据标注行业的主要发展方向，从需求侧确定需求，定制化打造适合自动驾驶行业的数据服务，将有效助力自动驾驶商业化落地进程，共建人工智能商业应用场景新生态。