您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机软件行业深度研究:新场景催化AI“燃料”数据采标需求加速释放 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机软件行业深度研究:新场景催化AI“燃料”数据采标需求加速释放

信息技术2023-03-11孟灿、陈矣骄国金证券在***
计算机软件行业深度研究:新场景催化AI“燃料”数据采标需求加速释放

AI基础数据服务商脱胎于专业数据采标分工需求。国内AI基础数据服务产业主要包括上游-数据产生及产能资源、中游-训练数据生产、下游-AI算法研发三大产业环节。数据工程是AI工程基础环节,目前正处于市场格局渐趋清晰,新老技术迭代、下游需求加速释放的关键节点。 AI快速落地叠加数据量指数级跃升,2025年国内百亿规模可期。场景侧,AI已在金融、医疗、交通、安防等多个垂直场景深度落地,且应用场景拓展势能强劲,伴生数据海量增长;产品侧,据信通院,自OpenAI于2020年推出GPT-3以来,超大预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,客观推动高质量数据需求指数级扩张。据艾瑞咨询,2025年我国AI基础数据服务市场或达101亿元,相较2022年翻倍。 AI大模型催生高要求和新需求,专业化数据集及AI训练师需求利好海天瑞声等优质专业数据解决方案提供商。AI大模型时代无监督/半监督训练重回主流,“基础模型+微调”成为AI开发新范式,RLHF微调技术催生两大新兴需求。一是预训练阶段催生AI厂商对标注完善、清洗完备的各类专业化场景数据集的需求;二是交互奖励阶段催生AI厂商对于具备专业事实判断与规范价值判断的人工智能训练师的需求。目前两类新兴需求尚未得到充分有效的市场供给。伴随超大规模预训练模型推动训练数据指数级跃升,市场蓝海亟待填补。 自动驾驶训练数据需求方兴未艾,海天瑞声发力布局。自动驾驶约占我国AI基础数据服务市场规模的35%,系第一大下游场景,2025年市场规模或达25亿元。自动驾驶领域的业务类型可分为车载摄像头采集的2D图像数据标注与激光雷达采集的3D点云数据标注。目前业内客户对于全栈式闭环数据解决方案需求较高。 国内市场集中度趋势性收敛,海天瑞声具备领先优势。伴随需求侧AI垂直场景及专业化需求凸显,数据需求量提升但数据采标业务门槛提高;供给端国内数据安全标准及相关资质要求提升,相关解决能力向头部厂商聚集。以海天瑞声、Appen为代表的品牌数据服务商未来将替代中小型供应商成为市场主要供应力量。据IDC,2021年海天瑞声在国内AI基础数据服务行业市占率高达12.9%,位居第一。Appen在覆盖区域、语种/方言覆盖能力等方面更具优势。 海外对标:Appen,全球AI基础数据服务龙头。公司近�年营收CAGR达27.2%,主营业务包括数据采集、数据预处理与模型评价三大类,业务类型齐全。主要客户包括Google、Amazon、Microsoft等知名IT巨头,客户质量较高。全球范围看,Appen位居全球AI基础数据服务行业收入体量首位,员工量能及标注技术均领先同业。他山之石可以攻玉,对于国内厂商而言,积极卡位全球AI头部客户将有助获得大模型预训练的业务红利;持续拓宽业务矩阵,开辟模型评价模块主动挖掘客户数据需求将有助于纵向做深客户价值;夯实数据采标技术,紧跟行业趋势发展包括机器标注在内的先进数据采标技术将有助于筑牢自身业务护城河。 AI基础数据服务行业,需求侧AI垂直场景及专业化需求凸显,数据需求量提升但数据采标业务门槛提高;供给端国内数据安全标准及相关资质要求提升,相关解决能力向头部厂商聚集。推荐关注国内业内领军海天瑞声。 产业需求快速迭代带来研发投入回收不确定性风险;训练数据泄露引发的安全性风险;市场竞争加剧导致利润受到挤压的风险。 内容目录 1.AI基础数据服务脱胎于专业数据标注需求,2025年国内百亿规模可期5 1.1产业图谱:AI基础数据服务脱胎于专业数据采标分工需求5 1.2发展历程:站在人工标注市场出清与机器标注迭代的十字路口5 1.3市场规模:AI快速落地叠加数据量指数级跃升,2025年国内百亿规模可期6 1.4政策支持:近�年国家政策加持国内AI产业发展8 2.AI大模型催生高要求新需求,专业化数据集及AI训练师需求利好优质专业数据提供厂商10 2.1场景特质:AI大模型时代无监督/半监督训练成为主流,RLHF催生新兴需求10 2.2场景需求:预训练阶段高质量专业数据集+交互奖励阶段人工智能训练师11 2.3场景价值:超大规模预训练模型推动训练数据指数级跃升,市场需求持续延展12 3.自动驾驶领域训练数据需求方兴未艾,海天瑞声发力布局12 3.1场景特质:自动驾驶客户需求全栈式闭环数据解决方案12 3.2场景需求:自动驾驶领域数据标注分为2D图像标注与3D点云标注14 3.3场景价值:自动驾驶训练数据市场方兴未艾,2025年国内市场规模或达25亿元14 4.国内市场集中度趋势性收敛,海天瑞声具备领先优势15 4.1发展趋势:品牌商价值效应凸显,国内市场集中度持续收敛15 4.2竞争格局:业内主要玩家发展各有侧重,Appen及海天瑞声具备领先优势16 4.3他山之石:Appen发展复盘,全球AI基础数据服务巨头的崛起之路19 5.投资建议20 6.风险提示21 图表目录 图表1:AI基础数据服务商脱胎于专业数据标注分工需求5 图表2:数据工程约占AI工程80%时长,Garbageingarbageout效应显著5 图表3:72%的全球受访者认为至少需要超过10万条训练数据进行模型训练6 图表4:96%的全球受访者在训练模型的过程中遇到训练数据质量不佳、效率不足的问题6 图表5:AI数据工程发展历程及展望6 图表6:2025年全球AI市场规模或达2,218.7亿美元7 图表7:2022年国内AI市场规模或达116亿美元7 图表8:2018~2025年全球数据量CAGR或达26.9%7 图表9:2018~2025年中国数据量CAGR或达30.4%7 图表10:2025年我国AI基础数据服务市场或达101亿元,相较22年翻倍7 图表11:2019年我国AI基础数据服务各类型数据需求占比7 图表12:近�年国家政策加持国内AI产业发展8 图表13:AI大模型传统数据标注需求下降10 图表14:OpenAI开展RLHF三步骤11 图表15:RLHF需求:预训练阶段高质量专业数据集+交互奖励阶段人工智能训练师12 图表16:超大规模预训练模型参数及数据规模近年来指数级跃升12 图表17:自动驾驶场景中的AI基础数据服务需求13 图表18:自动驾驶客户需求全栈式闭环数据解决方案13 图表19:自动驾驶场景中的AI基础数据服务业务类型14 图表20:2020年自动驾驶约占AI基础数据服务市场规模的35%15 图表21:2025年我国自动驾驶AI基础数据服务市场规模或达24.9亿元15 图表22:2019年我国AI基础数据服务市场竞争格局15 图表23:2019年我国AI基础数据服务市场CR515 图表24:业内主要品牌数据商16 图表25:业内主要玩家指标对比16 图表26:智能语音类训练数据产品对比17 图表27:通用语音识别训练数据产品对比17 图表28:车载语音识别训练数据产品对比18 图表29:特色语音识别训练数据产品对比18 图表30:自然语言训练数据产品对比18 图表31:计算机视觉训练数据产品结构对比19 图表32:AI基础数据服务巨头,近�年营收CAGR达27.2%19 图表33:Appen业务类型齐全,客户质量较高20 图表34:Appen处于员工量能及标注技术矩阵头部位置20 图表35:推荐关注国内AI基础数据服务领军者海天瑞声21 1.1产业图谱:AI基础数据服务脱胎于专业数据采标分工需求 国内AI基础数据服务产业主要包括上游数据产生及产能资源、中游训练数据生产、下游AI算法研发三大产业环节。其中,部分产业环节重合度较高,AI基础数据服务商主要脱胎于专业数据采标分工需求。 上游主要包括数据生产者和数据生产组织者,主要提供原料数据的采集服务。 中游主要由基础数据服务商构成,通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务。AI基础数据服务整体可分为两大类,一种是具备自有的标注基地或全职标注团队,这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专注于数据产品的开发与项目执行。 下游包括科技公司、行业企业、AI公司和科研单位等,主要负责算法研发。部分下游AI公司拥有自主的标注工具,也可通过AI中台获取一些通用标注工具,少数数据需求大的企业还孵化了自主的数据服务团队。 图表1:AI基础数据服务商脱胎于专业数据标注分工需求 来源:海天瑞声招股说明书,艾瑞咨询《2019年中国人工智能基础数据服务行业白皮书》,国金证券研究所 1.2发展历程:站在人工标注市场出清与机器标注迭代的十字路口 理论层面:数据工程系AI工程基础环节,核心在于高效的数据标注。AI工程=数据工程+模型工程。其中,数据工程主要包括数据采集与数据标注,约占AI工程时长的80%;模型工程主要包括模型训练与模型部署,约占AI工程时长的20%。数据工程是AI工程的前置且基础环节,直接影响到模型的质量与精度。数据工程的核心在于高效的数据标注,Garbageingarbageout效应显著。 图表2:数据工程约占AI工程80%时长,Garbageingarbageout效应显著 来源:整数智能,国金证券研究所 实践层面:AI模型训练数据需求规模大,训练数据质量不佳、效率低下情况普遍。据 DimensionalResearch全球调研报告,72%的受访者认为至少使用超过10万条训练数据进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面挑战,AI企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务。 图表3:72%的全球受访者认为至少需要超过10万条训练数据进行模型训练 图表4:96%的全球受访者在训练模型的过程中遇到训练数据质量不佳、效率不足的问题 大于1000万, 10% 100-1000万, 19% 少于10万, 28% 10万-100万, 43% 缺少标注工具,27% 缺少标注团队,28% 数据不可直接使用,50% 未曾遇到问 题,4% 数据偏差或 错误,66% 数据量不足, 51% 来源:海天瑞声招股说明书转引自DimensionalResearch,国金证券研究所来源:海天瑞声招股说明书转引自DimensionalResearch,国金证券研究所 AI数据工程发轫于AI产业落地元年,系AI下游应用的基础且必备环节。目前行业处于市场格局渐趋清晰,新老技术面临迭代,下游需求加速释放的关键节点。 产业初生期(2010~2016):2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。后续数年,早期的AI基础数据服务门槛较低,质量参差不齐。 产生成长期(2016~2022):近�年来,供给侧高烈度的业内竞争加速市场出清,需求侧对产业落地以及垂直场景的定制化数据采标需求逐渐凸显。最终引致行业头部企业浮出水面,行业格局逐渐清晰。 产业成熟期(2022~至今):2022年以来,AIGC产品集中爆发,高level自动驾驶需求加速释放。传统人工标注的效率已不能完全满足算法需求,行业护城河转向自动化机器标注技术,预计产业将进入向技术要市场的新阶段。 图表5:AI数据工程发展历程及展望 来源:艾瑞咨询《2019年中国人工智能基础数据服务行业白皮书》,国金证券研究所 1.3市场规模:AI快速落地叠加数据量指数级跃升,2025年国内百亿规模可期 国内AI市场规模超百亿美金,约占全球市场10%份额。目前,AI已在金融、医疗、交通、安防等多个垂直场景深度落地,且应用场景拓展势能强劲,商业化进程加速。从全球市场看,据IDC,2021年全球AI产业规模达885.7亿美元,预计2025年将达到2,218.7亿美元,CAGR高达25.8%。从国内市场看,据IDC,2022年我国AI产业规模或达116亿美元,预计未来数年仍保持两位数增