人工智能基础数据服务白皮书 2023/03 核心观点 整体市场:人工智能产业的快速增长带动了人工智能基础数据服务市场的蓬勃发展,自动驾驶是未来五年最重要的应用领域 •结构化数据是人工智能算法开发迭代的重要基础,人工智能基础数据服务市场受人工智能核心产业发展带动仍将保持高速增长,预计2027年市场规模有望达到130-160亿元。 •自动驾驶是人工智能基础数据服务市场占比最大的下游应用,随着自动驾驶算法技术不断迭代与场景落地,未来占比有望进一步提升。 发展趋势:标注复杂化、自动化、全栈式服务需求以及愈加严格的数据合规需求是AI基础数据服务市场的四大趋势 •标注复杂化:随着算法迭代创新以及场景功能的持续扩展,数据标注元素和标注信息维度均将大幅增加,对于数据基础服务供应商提出了更高的要 求; •自动化标注:AI赋能的自动标注工具逐渐成为基础数据服务商和AI算法公司降本增效的利器,推高行业集中度; •全栈式服务:下游算法应用方自研人工智能算法的趋势逐渐显现,需求方对于“基础数据服务+云资源+工具链”的全栈式服务需求提升(包括算法 公司,但主要由应用方驱动),特别是对于工具链产品的需求将随着商业化场景的成熟由自动驾驶领域向各行各业拓展,适应未来的迭代需求; •从自动驾驶基础数据服务需求方的角度出发,整车厂及Tier1自研需求不断提升,同时技术迭代带来的更复杂、更专业的数据标注需求,这将推升整 个自动驾驶行业的基础数据服务外包需求,并进一步释放对工具链及全栈式服务的需求。 •数据合规性:数据安全法律法规体系不断完善,基础数据服务商在数据脱敏、数据采集的测绘资质要求等环节的专业性价值会为其带来竞争优势。 竞争格局:传统的专业型基础数据服务商仍是行业重要组成,但科技巨头企业依托其科技实力和强大资源,逐渐占据竞争优势 •科技巨头、专业型基础数据服务商以及科技初创企业是人工智能基础数据服务行业的主要参与者,其中专业型基础数据服务商布局早,服务经验积 累深,在市场中仍占有较大份额,而科技巨头近两年发力明显,快速抢占市场; •自动化标注、专业数据采标及全栈式服务是人工智能基础数据的三大核心能力,其中领先的科技巨头在三个维度均有持续的积累,综合能力最强。以百度为代表的科技巨头依托其研发能力、产业链协同资源和对AI算法的理解、稳定和专业的标注团队,竞争优势显著,市场份额有望持续提升。 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 目录 章节页码 第一章:人工智能,数据先行:AI基础数据服务持续快速发展4 第二章:AI基础数据服务趋势:复杂化、自动化、全栈化及合规化12 第三章:科技巨头已下场,强者优势愈发清晰19 人工智能基础数据服务白皮书 ©2023。欲了解更多信息,请联系德勤中国。 ©2022。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 人工智能正在加速渗透应用到各行各业 中国人工智能产业处于高速增长期,正在加速向各行各业渗透,包括互联网娱乐、智能制造、智慧医疗、智能安防及自动驾驶等,而自动驾驶等应用场景的复杂性又反向推动了人工智能的迭代演进 人工智能主要应用场景 互联网娱乐智能制造智慧医疗智能安防自动驾驶 场景痛点 •存在大量针对黄恐暴、抄袭等方面的内容审核需求,但人工审核效率低、成本高 •传统客服也面临成本高昂的问题 •人力工序过程失误率高,且 难以追溯 •部分工作环境存在高危性 •国内医疗水平参差不齐,基层卫生医疗水平低下,有经验的医生资源稀缺 •新药设计难度大、成本高且耗时 •传统安防无法准确识别人、物与场景 •犯罪、恐怖袭击等事件无法预知 •人口红利消失,驾驶员成本高且资源短缺 •超载及疲劳驾驶导致安全事故频发,造成生命财产损失 AI解决方案 •采用语音识别、语义切割、图像识别等方式对内容数据进行识别分类,高效实现审核工作 •ChatGPT的诞生大大加快了 人机交互的效率与应用 •利用计算机视觉技术高效准确发现瑕疵品 •机器人代替人在危险场所完 成工作 •智能影像识别可以通过自动读片快速进行疾病筛查,弥补医疗资源差异 •AI制药能够以更低成本高效发现药物靶点、筛选化合物,大幅提升新药研发效率 •通过计算机视觉等技术实现人脸识别,从而发现嫌疑人行动轨迹 •进出楼宇与园区时采用指纹 或人脸识别提高识别精确度 •自动驾驶通过传感器、计算机视觉等技术逐步解放驾驶员,实现车辆的自主驾驶 AI应用场景复杂性 AI精度要求 信息来源:德勤访谈、研究与分析低高 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 结构化数据是人工智能快速发展的基石 结构化数据是人工智能算法模型开发和迭代的基础,从设计、训练、评测、仿真到整个算法更新迭代的全生命周期都需要持续不断的结构化数据的输入作为支撑 人工智能算法模型开发流程 开发流程 设计 训练评测 仿真迭代 结构化数据 •从数据源采集包括图像、语音、文本、点云等形式在内的算法所需数据,通过标注,将非结构化数据转化为计算机语言下的结构化数据,结构化数据是人工智能算法开发的基石 •通过感知训练评测平台根据实际场景和技术趋势对算法进行可持续性 的、针对性的更新迭代 和算法bug修复 •通过数据建模建立接近真实世界的测试场景并进行算法可行性测试验 证,例如自动驾驶场景 或智能制造场景 •通过人工数据标注结果与模型标注结果比对进行算法模型的评测,判 别算法模型识别准确性 •通过海量结构化数据训练人工智能算法模型,使人工智能算法得以落 地实践 •明确选择算法的核心目标,并从数据中提取有效信息以进行算法模型的选择和设计 人工数据价值智能 •需要持续的一定量数据输入进行算法模型迭代 •需要根据场景挖掘构建场景库,并进行仿真测试 •需要经过标注的测试数据集进行对照验证 •需要大量结构化数据进行模型训练 •分析小批量数据特性以设计算法模型 算法模型开发 数据需求量 信息来源:德勤访谈、研究与分析低高 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 对结构化数据的需求催生基础数据服务产业 基于结构化数据的重要性,人工智能产业逐渐诞生了一批专业人工智能基础数据服务商—通过数据采集与数据标注,有效衔接数据源与具有算法开发需求的企业 人工智能基础数据服务商处于产业链中游,通过提供数据采集和标注服务,连接上游数据来源方和下游人工智能算法研发方 •市场上现存的大量数据均为非结构化数据,无法直接应用于人工智能算法的研发与训练,需要通过数据的采集与标注将其转化为结构化数据,以供下游人工智能算法研发商使用。 •这个采集与标注的过程逐渐形成了一项专项工作,主要由专业的基础数据服务商来提供,少量由算法研发企业的自有团队执行 人工智能基础数据服务产业链1 产业链上游产业链中游产业链下游 数据产生源声音图片事件 语音 图像非结 文本构 人工智能基础数据采集与标注人工智能算法研发 科技公司 行业 企业 AI 基础数据服务商 下游应用 结 构 AI 公司 化 道路物体车辆 化数据 视频数采集 据 数据 标注数据 人体行为信号 科研 单位 下游企业自有团队 点云 注释:1.产业链图谱中代表厂商为不完全列举,排名不分先后信息来源:德勤访谈、研究与分析 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 基础数据服务受AI商业化落地驱动高速增长 人工智能技术经历数十载的发展,近年来深度学习加速了人工智能技术的商业化落地,同时也带来了大量AI算法训练需求,推动基础数据服务市场的快速增长 人工智能技术已经经历了较长时间的发展,近年来由深度学习带来的人工智能技术商业化应用落地极大的推动了AI基础数据服务的需求 人工智能发展阶段及重要里程碑 人工智能的 诞生 人工智能技术 高速发展 深度学习加速人工智能商业化落地 中国人工智能基础数据服务市场规模 •1956年达特茅斯会议召 •2006年,深度学习神经 单位:亿元 •2021年百度与小马获得首批自动驾 开,标志着人工智能这 网络概念被提出 驶车辆收费服务试点,标志着中国 一技术的诞生 •1958年《感知器:脑的 组织和信息存储的概率模型》发表,打开了神经网络研究的大门 •2016年,谷歌AlphaGo运用深度学习算法战胜世界围棋冠军,拉开了 人工智能深度学习商业化落地的大幕 •2017年,苹果iphoneX首次推出人脸识别解锁,2017-2018年,阿里巴巴、小米及百度先后推出AI智能音箱。AI智能终端商业化快速发展 +41% 自动驾驶商业化运营的元年 25%-30% 130-160 8.210.713.818.0 30.3 45.0 1950s-2005 2006-2016 2017 20182019202020212022 2027E 信息来源:公开资料整理、IDC;德勤访谈、研究与分析 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 基础数据服务在不同场景的需求各不相同 人工智能基础数据服务应用于众多下游场景,但不同下游场景对数据采集类型以及数据标注对象有着各自的差异化需求,自动驾驶当前是人工智能基础数据服务最重要的应用领域,并将在未来继续维系这一地位 人工智能基础数据服务下游应用占比(2022-2027E)整体市场规模: 数据采集标注类型未来增长潜力未来增速1 45亿 130-160亿 38% 52% 16% 16% 16% 12% 10% 10% 7% 7% 10% 6% 自动驾驶 •采集大量真实、覆盖不同道路天气小概率事件的道路视频图像以及激光点云图像,标注视频图像以及点云数据中的道路可行驶区域、车辆、行人等各类元素 •采集产品图像、生产环境画面、设备运行状态画面等 •自动驾驶行业对数据的需求处于起步阶段,未来技术 32-37% 与功能迭代、场景拓展将带动数据需求量几何级增长 •工业视觉是行业增长主要驱动力,伴随国家对工业领 智慧工业 智能安防 AI+互联网 数据,标注各类生产状况及产品图像及其状态,如钢铁表面瑕疵或裂纹 •采集各类公共场所、居民住宅楼及商用楼的监控摄像头数据,标注视频图像中的人脸骨骼点、车辆、动作行为等元素 •采集用户生成的文章、搜索、直播、视频、图像等内容素材,标注文本中的敏感字眼以及视频图像中人的行为、手势、嘴型等动作元素 •采集医疗影像、手术工具、处方、设备控制、病例等 域数字化智能化的重投入,未来行业需求量有望放量提升 •人脸识别精确度的可提升空间有限,但事件感知识别等新场景需求为智能安防基础数据服务需求带来一定增长空间 •行业快速技术迭代驱动数据迭代需求增长,但由于技术路径正向无监督训练倾斜,未来长期看数据标注的需求量或将先增后减 •我国老龄化明显,医疗行业AI应用发展旺盛,带动基 24-29% 17-22% 15-20% 智慧医疗 数据,标注医疗影像中的人体拉框、骨骼点以及处方病例中的文本等 •智能终端:各国人像、小语种、方言等数据 础数据服务需求呈现一定增长15-20% •智能终端、智慧金融等场景已较为成熟固化,未来增 长潜力稍低,将趋于稳定 2022 2027E •智慧金融:票据单据、保险标的、人脸、对话语音等 其他非结构化数据以及风控数据等结构化数据 •但其他潜在应用领域例如元宇宙板块随着发展成熟或 存在市场增长爆发的机遇 12-16% 注释:1.2022-2027ECAGR 信息来源:德勤访谈、研究与分析 份额占比:增加持平降低 ©2023。欲了解更多信息,请联系德勤中国。人工智能基础数据服务白皮书 自动驾驶将在未来持续释放数据基础服务需求 自动驾驶AI算法的升级迭代及模型训练数据量的指数级增长,将持续拉动人工智能基础数据服务需求 自动驾驶人工智能基础数据服务市场规模及整体占比单位:亿元;% 自动驾驶基础数据服务规模 •L4级别自动驾驶2030后或逐步落地,算法模型训练的数据需求2027年后或将逐步释放 核心驱动因素 自动驾驶占整体基础数据服务占比•预计2025年L3级别自