交付准确率99%!大厂进军自动驾驶AI数据服务,教AI人类标注能力

  允中发自凹非寺

  量子位公众号 QbitAI

  △AI 数据是人工智能行业的燃料,在智能驾驶领域同样扮演着助推技

  如今自动驾驶成为了人工智能领域最受关注、最具挑战和影响力最为广泛的产业方向,是推动全球汽车工业变革最重要的科技力量。

  汽车正在向智能化转变,在自动驾驶落地较好的企业往往也具备强劲的市场竞争力。但目前智能汽车想要实现更高等级的自动驾驶,还有许多技术难点有待解决。

  成熟的自动驾驶技术需要具备感知和决策两方面能力。

  通过多种融合的车外传感器使汽车具备感知周围行驶环境的能力;决策则是基于感知和理解后的信息给出判断和建议,再通过分模块的方式下达和完成自动驾驶任务。所以对于周围信息的判断和感知能力显得尤为重要。

  事实上,数据、算法、算力被看成人工智能中的“三驾马车”,数据是其中的土壤。

  当前提升自动驾驶感知能力的主要方式是依靠有监督学习的方法,将大量标注过的数据对算法进行“投喂”,通过不断地训练,让模型具备感知能力并达到一定的识别准确率。

  近日,ICVS 中国自动驾驶年会召开,在火山引擎 X NVIDIA 云上创新专场上,火山引擎首次面向智驾行业集中展示了 AI 数据服务的能力,并分享了在构建高质量、高安全性、高效的数据服务体验上的思路,成为了活动上的焦点。

  如何靠标注提升自动驾驶“感知力”?

  在路面上行驶的自动驾驶车辆每天会产生大量的数据,如何管理并标注好这些数据显得非常关键。

  随着数据标注需求量的爆发,简单粗暴地堆人力已无法有效解决“需求波峰”时供应不足的行业痛点。

  针对这些行业痛点和需求,火山引擎 AI 数据服务基于全生命周期的管理作业平台,提供一站式的服务能力体系,包含:售前咨询、方案设计、数据采集、数据标注、调研测评、智能标注工具等,帮助企业解决智能驾驶时代下的高质量数据缺口问题。

  △AI 数据服务的一站式服务能力

  火山引擎提供从售前阶段到定制化数据采集&标注服务,有专业的售前经理为客户提供完整的质量把控、数据流转、人员等方面的规划方案,保证全周期的交付质量。

  执行团队凭借丰富的采集和标注交付经验,提供覆盖 2D 类、3D 类、ASR、TTS、NLP 等数据类型的采标服务,灵活地针对客户的需求提供定制化的方案。并利用智能化的标注工具套件、AI 预标注和边标边训的模式,实现人机协作,有效提升效率、为企业降低成本。

  同时,结合了先进的项目管理经验和方法论,逐步形成质量进度管理、资源管理、技术工具和数据安全四个支撑方案,最终呈现一套专业的、一站式的服务能力体系。

  智能驾驶中的两大标注需求

  在智能汽车领域中,火山引擎 AI 数据服务主要针对自动驾驶、智能座舱两大方向,提供高质量的数据采集、标注服务。

  在自动驾驶领域,火山引擎根据 L2 级别组合驾驶辅助,提供对车道和周围环境数据的采集和标注服务,通过持续不断地投喂高质量的数据,来提升智能汽车在路面行驶时对周围环境及物体的感知能力。

  针对 L3 级及以上的自动驾驶等级,火山引擎借助点云标注的大方向,通过 3D 点云场景下的连续帧、2/3D 融合、点云语义分割等标注类型,解决自动驾驶应用场景持续拓展对于多源异构数据的需求,数据精准度可达 99% 级别,直击数据需求痛点,加速自动驾驶算法落地。

  在智能座舱领域,通常需要对车内的不同条件下的人脸、手势、语音数据采集和标注,让智能座驾能够理解驾驶员的意图并快速响应,丰富驾驶乐趣和使用体验的同时,也能进一步增强行驶安全性。

  针对车内的生物识别和手势控制识别技术,火山引擎 AI 数据服务可提供多种设备(录音笔、手机、车机鱼眼摄像头等)、多角度(直视、45 度、仰视等)、多场景(多场景下的光线条件)下的数据采集服务,对驾驶员眼球视线和人脸轮廓及手势进行标注,用于判断和识别驾驶员驾驶状态和对车机下达的操控指令,确保机器训练所用的非结构化数据来源足够丰富和多样。

  在声控信息交互和情感交互识别方面,可提供多语种(普通话、方言、英语等)、多语料、多场景(车内、车外、多乘客等)及不同性别、年龄人的语音采集和标注能力,用于训练和提升语音唤醒、语音识别、NLP、情感识别等模型的效果。

  现阶段,火山引擎 AI 数据服务在智能驾驶领域拥有几千名 2D/3D 经验生产人力,平均交付准确率已经可以实现 99% 以上。

  客户已经覆盖头部互联网公司无人车项目、造车新势力、传统车厂、图商、自动驾驶方案提供商等。

  项目能力覆盖了 2D/3D 融合、点云车道线、连续帧追踪标注等主要类型。标注车型覆盖商用车、乘用车及无人配送车等多类型车辆,标注场景实现全覆盖。

  利用智能化数据平台提升标注效率

  当前,许多数据标注企业仍停留在劳动密集型产业的定位中,在面对现阶段自动驾驶所需要处理的巨量数据时,就显得捉襟见肘。

  从趋势上来看,行业正在向 AI 辅助+精细化管理的方向转变。

  通过 AI 辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一。需要大规模堆人力的魔咒,正在不断被技术所打破。

  一款好用的平台可以实现数据全流程可视化的管理、质检模式可多层次灵活配置、针对复杂任务可执行数据串行并行流转,能够保证多个项目在平台实现一体化作业。

  作为数据标注的集大成者,火山引擎数据标注平台中集成了多种标注模板、预标注与边标边训算法,同时具有保障数据安全、平台操作便捷、可定制化、可与火山引擎云产品打通的特性。

  通过模版工具丰富多样、人工与算法灵活配合、数据服务专业高效灵活将持续为客户的数据处理工作保驾护航。

  △火山引擎数据标注平台的优势

  另外,平台支持系统部署到企业自有服务器上,企业的所有系统数据均在自主管理下,私密数据的安全性有保障。

  同时还可根据企业自身需求与业务场景,定制个性化产品方案,让产品更好地被企业使用,实现业务发展与标注需求的一比一完美适配。

  在标注工具方面,实现了对各类常见的文本、图像、视频、语音、3D 点云数据的自定义处理需求,降低了模板冗余,帮助客户快速获取低成本、高质量的结构化数据。

  在算法赋能方面,火山引擎的数据标注平台的 AI 预标注与边标边训的算法能力,大幅提高了标注效率与准确率,可辅助和代替部分人工操作,并根据项目类型,选择适合的模型能力在相应项目阶段接入。

  △标注平台的模型能力

  模型过滤阶段:由模型进行原始数据的分析,过滤掉不需要人工标注的数据,只留下需要人工标注的数据。

  模型预标阶段:用模型进行数据的预先标注,标注员只需进行确认或修改。

  模型纠错阶段:在标注作业时,模型可以实时进行智能纠错,避免标注员提交低质量任务。

  模型质检环节:在质检作业时,模型可以辅助筛选需重点质检任务或直接完成数据的验收。

  火山引擎利用边标边训的数据标注模型,智能化地学习作业内容与标注尺度,通过“自学习”方式驱动完成算法迭代,“智能+无感知”地学习人工标注习惯,带来更高的准确率和更好的数据标注体验。

  在接到长周期、大批量类型项目时,模型偏向于“特定业务类型”,高准确率带来更高的人效收益;在处理短周期、小批量类型项目时,系统可快速切入并赋能业务,节省前期人工准备的时间。最终可实现 30%-100% 的效率提升和 10%-30% 的质量提升。

  在业务快速发展的当下,AI 数据服务业务对工时精细化管理的需求愈发迫切。

  △工时管理平台

  为了更好的服务业务,火山引擎还推出工时管理系平台。该管理平台将实现工时精细化管理,推进工时管理系统化进程,提高工时数据的准确性,为高效实现项目工时管理和人效管理提供有力支持。

  提升数据安全管理能力

  高质量的数据产品往往离不开高质量的运营管理体系。

  在产品质量方面,火山引擎通过高标准的人员准入门槛、长时间的经验累积和方法沉淀、专业的质检把关部门、灵活的平台支持把控质量。

  在保证产品质量的同时,火山引擎数据服务的产量也值得称赞,覆盖全国支持大规模量产。

  △产量管理

  在数据标注这个领域,产量是一个比较重要的课题,为了能保证高效、高产,火山引擎 AI 数据服务在三方面做了一个相应的配置。

  在资源层面,在天津、龙岩、重庆、烟台等 10+ 地方拥有自建基地,综合标注人员达万人,可解决人力缺口问题。

  在人员管理层面,构建了完整的人员管理、人员产能分析体系,实现灵活、敏捷、大规模用工的新模式。

  在平台支持层面,资源管理平台科学分发任务、进度看板提前预警。通过增强三方面的能力,能够以多维度、多角度、科学精准地做好产量管控。

  近些年数据安全问题凸显,企业对数据的质量管控、安全管理及隐私保护等方面也有较大的诉求,如何最大限度地保障数据资产安全成为了重点课题。

  △数据安全管理

  为了预防数据安全问题出现,火山引擎 AI 数据服务从人员培训、平台安全、工区场地安全再到网络及终端安全都采用了行业内最高标准,确保客户的核心利益不受损。

  在数据流转的过程中,提供云链接加密传输、硬盘传送、专人监督运送、阅后即焚、文档权限管理等方式来保证安全性。

  在人员培训、数据平台、物理工区、网络终端安全等方面,通过一系列科学的方式和培训来提高人员对数据安全保护意识;再通过数据平台水印、飞书文档权限、数据生命周期和行为记录等方式确保数据不外传;在物理场地采用门禁、CCTV 和专人巡检的方式保障职场安全;并采用抖音集团的网络及终端安全管理方法来保证数据安全。

  用 AI 数据增强汽车“智力”

  算法、算力、数据作为 AI 核心三要素,相互影响,相互支撑,人工智能技术正在智能汽车行业内形成突破与快速落地,焕发出了源源不断的生机。

  自动驾驶技术的问世,让人们构想出的“智慧交通再无拥堵”的概念离我们的距离越来越接近。

  而要实现真正的自动驾驶不是一蹴而就的,它会经历一段渐进的过程,整个过程是从低速到高速,从人机共驾到无需驾驶员介入,从有一定风险到零事故发生,从商用到民用的渐进路线。

  在自动驾驶算法模型逐步走向成熟,车端平台大算力普及的今日,数据规模自然而然地成为决定自动驾驶能力高低的关键变量,自动驾驶技术的落地离不开大规模高质量数据的支持。

  数据规模、数据获取成本、数据质量直接和自动驾驶能力提升的速度和高度相关。随着高质量数据资源的积累,智能汽车将愈加智慧,智能驾驶体验愈发出色,围绕用户全生命周期的商业化模式也将愈发清晰。

  AI 数据服务负责人金亮表示:

当前,AI 算法对训练数据维度和样本复杂性的要求变得越来越高,对数据标注技术、标注平台能力、数据安全、不同维度数据协同标注等都提出了挑战。

  面对新挑战,火山引擎 AI 数据服务利用 AI 技术对海量图像及点云数据进行难例提取和场景挖掘,结合 AI 自动化预标注和辅助标注,辅以交互式人工标注和质量控制措施,将有效降低数据标注复杂度,提升整体数据质量,最终解决自动驾驶模型训练的痛点,快速地部署 AI。