基础数据服务行业分类 从基础数据服务的服务类型可以划分为数据采集和数据标注两大类服务 基础数据服务服务类型 数据采集包括结构化数据采集和非结构化数据采集。结构化数据的采集是指从SQL、电子表格、CSV文件等中采集数据,这些数据不需要进行转化就能直接进行标注。非结构化数据是指图像、语音和文本数据,这些数据需要转化为结构数据才能用于AI算法模型的训练。 非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速度增长。非结构化数据可以训练出强大的自然语言处理、计算机视觉和语音识别算法。这些算法能更好地理解和模拟人类的行为和思维,从而实现更准确的预测、更智能的决策和更出色的用户体验。非结构化数据的有效利用,是推动AI技术发展的关键。 数据采集服务 基础数据服务分类 数据标注服务是将非结构化数据(如图像、视频、文本等)转换为结构化数据的过程,通常通过人工或半自动的方式为数据添加相关标签或注释。这种服务在许多人工智能项目中发挥了关键作用,特别是在需要大量训练数据的机器学习应用中。数据标记服务可以帮助企业或个人开发者快速获取高质量的训练数据,从而提升AI模型的精度和效果。 数据标注服务 [2] 1:https://zhuanlan.z… 2:金柚网、知乎专栏 [3] 基础数据服务行业特征 基础数据服务行业面临着爆发式的需求增长和持续的供给变革。在中国,数据量从2017年的2.3ZB飙升至预计2026年的23.5ZB,这推动了企业对处理、管理和分析数据的迫切需求,因此基础数据服务行业市场前景广 阔。供给端,生成式AI的崛起催生了从人工标注向AI标注转变的趋势,以提升标注效率和降低成本。然而,这需要强大的算法能力和大量的数据资源,从而增加了行业门槛。在这个背景下,基础数据服务为大模型训练如GPT 需求分析 数据量的爆发推动了基础数据服务行业的需求上升和拓展基础数据服务提供的服务范围 中国的数据量在2017年到2021年,从2.3ZB(十万亿亿字节)增长到6.6ZB,预计在2026年达到23.5ZB,将位居全球第一,且未来依然保持爆发式增长。随着大数据的爆炸式增长,企业和组织对于处理、管理和 分析这些数据的需求也在急剧增加。这为基础数据服务行业带来了巨大的市场需求,推动了行业的发展。 其次,数据爆炸也推动了数据服务商提供更多元化、更专业化的服务。例如,针对不同类型的数据(如结 构化数据、非结构化数据等),数据服务商可能需要提供不同的数据处理和分析服务。 供给分析 随着生成式AI的时代的到来,基础数据服务的供给将加速从传统人工标注进入到AI标注的阶段 AI标注相对于人工标注,其自动化程度更高,通过AI算法初步完成标注后,再通过人工进行核验可以大幅 度降低标注的成本和提升标注效率。在大模型的时代下,数据的数量和质量对于模型的性能有很大的影响,因此数据标注将会往AI自动标注的方向发展。其次。随着人工智能算法的迭代以及在大模型的发展背 景下,自动标注需要持续的训练以及更强的算法能力推动,行业门槛将会上升。因此具备强算法能力和优渥的数据资源的数据服务商有望胜出 发展前景 生成式AI的时代,基础数据服务将持续释放其对于算法模型的基础支撑价值 在现代人工智能领域,大模型的训练,如GPT系列,对于高质量数据集的需求不断加大。这源于数据作为训练大型模型的核心资源,而这一点在GPT系列模型三代的发展中表现得尤为明显。数据集的质量和数量 都呈现出稳步的提升趋势。然而,从自然数据源收集而得的初始数据,并不适合直接用于有监督的深度学习算法训练。这些数据需要经过精细的采集、处理过程,以形成工程化的训练数据集,这样才能供深度学 习算法等进行有效的训练。面临着监督学习算法对训练数据需求量的急剧增加,这个需求已经远超过了当前的数据标注效率和资源投入的范围。因此,基础数据服务在此环境下发挥了极其关键的作用,它将持续 为算法模型提供基础支撑,发挥其价值。 [3] 1:https://www.china… 2:中国信通院赛迪顾问 基础数据服务发展历程 AI基础数据服务行业的发展历程大致经历了三个阶段。起初是2010年至2016年的产业初生期,期间语音识 别和计算机视觉领域的突破使得AI概念在中国兴起,但整体市场规模小,数据服务质量参差不齐。此后,进入了2016年至2022年的产业成长期,期间行业内部竞争加剧,市场开始出清,同时对垂直场景的定制化数据需求逐 渐显现。至关重要的是,2017年中国国务院发布《新一代人工智能发展规划》,这一政策大力推动了AI行业的发展。自2022年以来,行业进入了成熟期,尤其在自动驾驶等领域的应用,对数据质量和处理能力的要求大幅 度提升。此时,行业开始发生重大转变,从人工数据标注向自动化机器标注技术转变。这个转变是行业发展的重要里程碑,也是新的发展阶段的开始。总的来看,中国的AI基础数据服务行业目前处在成熟期,并且正在向更高 级的自动化数据处理转变。未来,随着技术的进步,尤其是自动化机器标注技术的发展,行业有望将进入一个新 的高速发展期,为AI的广泛应用提供更强大的支持。 萌芽期 2010~2016 2010年,百度、阿里巴巴和腾讯等中国互联网巨头开始在AI领域布局,这在很大程度上推动了AI基 础数据服务的发展。 初级的数据采集和处理,市场参与者众多,质量参差不齐。在此阶段,随着语音识别和计算机视觉领 域的重大突破,中国开始兴起AI概念。AI基础数据服务在这一阶段主要以原始的数据收集和初步的数 据处理为主,门槛相对较低,市场上的数据服务质量良莠不齐。 启动期 2016~2022 2017年,中国国务院发布了《新一代人工智能发展规划》,明确提出将AI作为新一轮科技革命和产业变革的重要驱动力,这一政策的推动使得AI基础数据服务进入了快速发展期。 供需两侧的变化导致市场开始分化,垂直领域的定制化数据需求增强。在此阶段,随着供需两侧的变化,市场开始出现分化。供应侧,由于技术和资本的竞争,部分企业开始走向领先;需求侧,随着AI 的广泛应用,对数据质量和数据服务的要求也在提高,对垂直场景的定制化数据需求逐渐凸显。 高速发展期 2022~至今 2022年,一些领先的AI企业开始投入到自动化机器标注技术的研发,这标志着AI基础数据服务进入 了新的发展阶段。 对数据质量和处理能力的要求提高,自动化机器标注技术开始崭露头角。进入2022年以后,AI基础 数据服务进入了成熟期,特别是在自动驾驶、机器视觉等领域的应用,对数据质量、数据处理能力以 基础数据服务产业链分析 基础数据服务主要由上游的数据产生及产能资源、中游的数据产品开发工具与服务管理、下游的人工智能算法研发共同组成。上游的代表其企业有龙猫数据、点我科技、慧听科技等,中游的代表企业包括海天瑞声、云测 信息、数据堂等,下游的人工智能算法研究企业主要包括商汤科技、云从科技、依图科技等企业。 随着中国数字经济的飞速增长,数据成为重要的生产要素,特别是非结构化数据,成为了深层次信息挖掘和 创新应用的关键资源。由此带动基础数据服务产业链快速发展,上游数据产生及产能资源的丰富度和多样性,带来了丰富的投资机会和增长动力。中游提供的标准化数据集产品和数据定制化服务发展迅速,特别是头部企业如 海天瑞声和Appen等,其标准化数据集产品增长势头强劲。同时,基于客户需求的数据定制化服务也日益受到重视。商业模式方面,随着下游的应用方对于算法能力快速部署与迭代的需求,推动了中游的商业模型向全栈式 商业模式进行迭代。下游的AI算法领域,受益于技术进步和政策支持,投融资活动持续活跃,对基础数据服务的需求也在持续增长。大模型时代的到来,使得对数据量的需求进入新的量级,这无疑为基础数据服务行业带来了 巨大的市场潜力。 上 产业链上游 生产制造端 数据产生及产能资源 上游厂商 北京百度网讯科技有限公司 标贝(北京)科技有限公司 数据堂(北京)科技股份有限公司 查看全部 产业链上游说明 1)从中国数字经济发展和数据的产生量来看,从2017年至2022年,中国数字经济规模从27.2万亿 元增长到50万亿元,五年间规模将近翻倍,数字产业化和产业数字化的占比也逐年增多,数字经济已经成为中国经济发展的核心组成部分。数字资源已成为重要的生产要素,中国的数据量在2017年到 2021年,从2.3ZB(十万亿亿字节)增长到6.6ZB,预计在2026年达到23.5ZB,将位居全球第一,且未来依然保持爆发式增长。中国数字经济的增长,将会给人工智能、云计算等领域带来投资机会和 增长动力,进而推动AI算法模型对于基础数据服务的需求。其次是数据资源将成为新的竞争焦点,数要素已经成为重要的生产要素,随着数据量的增长,我预计对于数据的获取、管理和利用将成为企业 竞争的新焦点。2)从数据类型和数据的来源来看,数据主要包括结构数据和非结构数据,其中非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速 度增长。结构数据主要来源于数据库等,非结构数据来源于图像、音频、视频等,其中图像数据占比最高。非结构化数据可以训练出强大的自然语言处理、计算机视觉和语音识别算法。非结构数据的意 义在于能够辅助挖掘深层次的信息和创新性应用。首先,非结构化数据可以帮助AI算法挖掘更深层次 的信息。例如,通过文本挖掘和情感分析,AI可以理解文本的主题和情感,甚至预测作者的个性和态度。其次,通过非结构化数据,AI算法能够开发出各种创新的应用,服务于各个领域。 中 产业链中游 品牌端 数据产品开发工具与服务管理 中游厂商 北京百度网讯科技有限公司 北京海天瑞声科技股份有限公司 标贝(北京)科技有限公司 查看全部 产业链中游说明 1)从中游提供的产品服务来看,主要包括标准化数据集产品和数据定制化服务。标准化的数据集产 品包括计算机视觉数据集产品、自然语言数据集产品和智能语言产品,从当前头部的专业数据服务提供商的标准化数据集产品来看,截至2022年12月,海天瑞声应用1334个数据集产品,Appen拥有 230个数据集产品,且每年增长在100个数量以上,头部企业数据集标注化产品供给稳定增长。数据定制化服务是基于客户的需求专门进行相应的数据采集、数据加工和数据标注,时间基于数据处理的 难度在几个月的范围之内,价格数十万起步,根据处理的时间和难度来定价。随着大数据时代的到 来,数据的价值的挖掘变得更为重要,对于基础数据服务的需求逐渐以数据定制化服务为主。2)从商业模式趋势来看,当前基础数据服务的商业模式包括两大类。一类是提供基础的数据服务模型,如 数据出售、数据API服务、数据标注服务、数据工具和软件出售等,这类商业模式适用于通用类的数据服务,其定价依据数据大小量、标注难度等,价格在几千至几十万之间。这一类商业模式适合数据 产业链下游 渠道端及终端客户 人工智能算法研发 渠道端 北京百度网讯科技有限公司 北京市商汤科技开发有限公司 云从科技集团股份有限公司 2022年中国基础数据服务市场规模从2021年的205亿元增长至2022年的260.04亿元,预计2023年将达到 331.06亿元,2027年将达到871.72亿元,2023年-2027年期间复合增速达到21.37%。 基础数据服务市场规模保持平稳增长的原因主要包括:1)深度学习的商业化落地:深度学习的商业化落地 进程当中,大量的AI算法训练需求也应运而生,为基础数据服务市场带来了新的增长机遇。其次,随着深度学习技术的进步,数据的需求也在不断增长。现代的深度学习模型,如BERT、GPT-4等,都需要大量的训练数据。 这就意味着,基础数据服务市场的需求量将在未来持续增长。第二、物联网和互联网的发展沉淀了大量的数据源。物联网设备如传感器、监控设备、智能