您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位智库]:中国AIGC数据标注产业全景报告 - 发现报告
当前位置:首页/行业研究/报告详情/

中国AIGC数据标注产业全景报告

中国AIGC数据标注产业全景报告

中Pan国oramAicIGReCpo数rto据fGe标nera注tive产AID业ata全Lab景elin报gIn告dustryinChina 2023.11杨净量⼦位智库QbitAIInsights 序⾔ 数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信 息结构化、数字化,充分发挥数据信息的价值。 ⼤模型时代到来,AIGC众多垂直场景落地,以及通⽤智能、具⾝智能等前沿领域探索,与⾼质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,⾏业壁垒进⼀步提⾼。 作为底层基础服务,数据标注贯穿⼤模型全⽣命周期(训练测试、评估验证和应⽤迭代)。⼀⽅⾯,牵涉关键Know-how,更多⼤模型公司/AI企业选择⾃建标注团队和管线;另⼀⽅⾯,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。 机遇与挑战并存。合成数据作为新衍⽣赛道,潜在市场空间巨⼤。与此同时,数据标注标准难以统⼀、数据处理流程尚未规范,⾼学历多领域多专业成为标注⼈才的硬指标。 ⽬录0" 0# 0$ 0% ⼤模型时代下的数据标注 AIGC数据标注四⼤变化AIGC数据标注三⼤影响因素 数据标注产业竞争格局/市场规模 0& 数据标注代表玩家案例集 !"⼤模型时代下的数据标注 数据标注是AI认识世界的起点 数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。 国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。 ⼀般数据处理流程:根据原始数据类型以及训练任务划分: 原始数据 数清据洗 数标据注 数质据检 测试/验证 模型训练 ⽂本: 意图标注等; 图像分类、语义分割、实例分割、拉框、OCR转写等;语⾳识别、声纹识别、语⾳转写等; ⽬标跟踪、⾏为识别等; 3D点云 词性标注、分类标注、情绪标注、命名实体识别、语义标注、 图像: ⾳频: 视频: 数据标注中的⼆⼋定律 通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。 ⼤模型时代下的数据标注 上市公司股价狂飙,创业公司融资加速 海天瑞声是国内唯⼀⼀家AI数据上市公司,今年2⽉以来股价受ChatGPT热潮曾⼀度狂飙,截⾄11⽉10⽇股价较年初上涨59.75%。 创业代表公司融资情况 星尘数据|22年12⽉5000万A轮 标⻉科技|23年4⽉超亿元B2轮 曼孚科技|23年9⽉数千万B轮 整数智能|23年6⽉数千万PreA轮 恺望数据|23年4⽉战略融资 柏川数据|23年7⽉千万元天使轮 23年9⽉数千万PreA轮 ⼤模型数据解决⽅案多处开花,以⼀站式、定制化服务为主 围绕⼤模型开发全⽣命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、⼤模型企业、AI公司等各⽅都拿出相关数据解决⽅案, ⼤部分以⼀站式、定制化服务为主。 •云测数据:⾯向垂直⾏业⼤模型数据解决⽅案 •星尘数据:星尘COSMO⼤模型数据⾦字塔解决⽅案 •澳鹏Appen:AI聊天反馈和基准测试两⼤解决⽅案 •⽕⼭引擎:⽕⼭⽅⾈(涵盖数据服务模块) •百度:⾸个⼤模型数据标注基地 ⼤模型范式涌⼊数据标注,⾃动化标注⻔槛⼤幅降低 以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性,并衍⽣出专⻔做数据标注的⼤模型,⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发,部分产品已经发布: •海天瑞声:数据⽣产垂直⼤模型(研发阶段) •曼孚科技:⾃动驾驶数据标注视觉⼤模型(已完成研发) •⻰猫数据:⾃动驾驶⼤模型AutopilotGPT(发布) •商汤:明眸SenseAnnotation⾃动化数据标注平台(发布) •标⻉科技:烘焙师⼤模型Baker-GPT(发布) 智能驾驶新感知范式,BEV+Transformer是机遇也是挑战 作为最具代表性应⽤场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的⼆维感知⽅案,给数据服务⼚商带来更多机遇与挑战,包括不限于标注场景难度⼤、数据量产能⼒要求⾼等。⽬前国内部分⼚商给出了数据闭环⼯具链和 解决⽅案等。(图源:特斯拉) AIGC重塑数据标注 量⼦位智库认为,数据标注正迎来重新洗牌的关键时刻,有四⼤关键趋势: 1、数据标注要求从客观到主观,很难建⽴统⼀标准 ⼤模型的开发范式决定了⼤模型数据标注对⾃然语⾔要求要求很⾼,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,⽐如准确率、效率等。 2、⾼学历多领域⼈才成刚需,缺⼝或达百万 本科以上多领域多专业开始成为标注⼈才的硬指标,标注⻆⾊也随着⼤模型全⽣命周期更为细分,⽐如AI训练师、模型精调师、指令⼯程师等。 3、产业链重构,⼤模型公司/AI企业涌⼊ ⼤模型Know-how涉及到数据处理流程的设计,⼤模型公司/AI企业开始⾃建数据标注团队和数据处理管线,甚⾄对外输出服务,产业链重新洗牌。 4、国内百亿级市场规模,合成数据增速最⾼ 量⼦位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍⽣出来的新赛道,存在巨⼤市场空间,增速超40%。 0#AIGC数据标注四⼤变化 需求变化:与⾏业场景强相关,高质量数据需求长期且持续 ⼤模型时代的到来,正加速推动⼈⼯智能开发从以模型为中⼼朝着以数据为中⼼的⽅向转变。 ⾼质量数据服务需求贯穿⼤模型全⽣命周期。 预训练 预⼆训次练* 监督SF微T调 强R化LH学F习 ⼤模型 ⽬前⼤模型技术路径已经完整清晰,训练流程主要分为三个阶段: *实际训练过程中,部分垂直领域大模型需用小规模语料进行二次预训练操作 ⼴泛认知⾥,⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限。 以模型为中⼼:迭代模型,数据相对固定。 以数据为中⼼:关注数据本⾝,模型成为了数据的「容器」。 数据处理流程设计涉及⼤模型Know- how,直接决定⼤模型性能好坏。 尤其后两个阶段需要专业⼈⼠⽣成数 据或对数据进⾏改写或排序,最终形 成符合⼈类标准(⽐如专业逻辑、核 ⼼价值观等)⾼质量数据。 (图源:OpenAI官⽹) ⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地,尤其通⽤智能、具⾝智能等相关探索,如何快速扩展到更多真实边缘场景,⾼质量场景数据也将成为刚需。 除此之外,实时保障输出内容的安全合规,也远⽐以往更受重视。从训练、迭代到应 ⽤落地,数据服务贯穿⼤模型全⽣命周期。 (图源:Data-centricAI:PerspectivesandChallenges) 企业端客⼾需要⻓期且持续的数据服务,产业链上下游供应关系远⽐以往更为紧密和耦合。 处理流程侧变化:标准从客观到主观,⾼学历多领域成⼈才硬指标 数据标注从劳动密集朝着知识密集型转变。 传统数据标注⼤模型数据标注 领域划分按不同领域或任务划分按不同阶段划分 具体实操拉框、描点、转写等操作排序、改写、⽣成等操作 标注要求偏客观偏主观 评价指标准确率+效率难以对⻬标准 解决⽅案⼯具/平台标注+⼈类质检专业培训、定期开会对⻬等举措 ⼈才要求专科为主本科以上,多领域专业⼈才 按职能划分 标注⻆⾊ 标注员、质检员、管理员 按阶段划分 AI训练师、模型精调师、指令⼯程师、红队测试军团等。 覆盖区域主要集中在三四线城市重新打散 例如,百度在海⼝专为⼤模型建设的数据标注基地,本科⽐例100%,培训专业⼈才已达1000⼈。未来五年,数据标注相关专业⼈才缺⼝将达百万量级。 业务变化:合成数据成新衍⽣赛道,潜在市场空间巨⼤ 所谓合成数据,即是⽤AI⽣成数据⽽⾮真实产⽣,能够替代真实数据来训练、测试和验证⼤模型。⽬前主要在⾃动驾驶、机器⼈、⽣物医药等领域应⽤。英伟达Meta亚⻢逊等全球科技巨头均有相关布局(投资、收购等)。OpenAICEOSamAltman曾放⾔:未来所有数据都将变成合成数据。 合成数据的优势&特点 应⽤场景 企业案例 量⼦位智库预计,合成数据将成为未来增速最快赛道,年增⻓率可达45%。 1、降本增效 数据增强模型验证可解释AI ⾃动驾驶 机器⼈ ⽣物⾦融医药 具A⾝R/智VR能 ⼯…业 … 降低数据获取成本,⽣成数据⾃带⾼质量标注,缓解“数据荒”问题。 2、数据可定制 应⽤可扩展性强,灵活度⾼,可覆盖更多边缘、⻓尾场景。 3、隐私安全 天然规避掉数据隐私安全合规的问题。 (图源:官⽹) 群核科技CoohomCloud(群核云)作为⽬前为数不多提供室内场景数据服务的代表⼚商,能针对不同应⽤场景合成2D、3D数据集,客⼾覆盖全球,服务多家海内外科技巨头公司,并于英特尔在产研等开源性项⽬上进⾏深度合作。 ⼤模型公司/AI企业⾃建数据处理管线,对外输出⼤模型数据解决⽅案,传统产业链重新洗牌。部分⼚商还具备云服务能⼒, 同数据服务打包输出,更易建⽴起客⼾之间的⼝碑和信任,具备竞争优势。 硬件/云服务⼚商、⼈⼒资源⼚商 (AI企业、传统企业、政企机构、科研机构等) 数据需求⽅ 供应链变化:重新洗牌,⼤模型公司/AI企业涌⼊ 专业数据服务提供商 基础数据服务提供商 综合招聘平台 京东云 腾讯云 华为云 阿⾥云 ⽕⼭引擎 百度智能云 …… 海天瑞声 云测数据 星尘数据 曼孚科技 标⻉科技 ⻰猫数据 群核科技 倍赛科技 数据堂 晴数智慧 37度数据 景联⽂科技 科乐园 整数智能 博登智能 恺望数据 澳鹏中国 卓印智能 未有科技 ⻛云数据 朗势科技 柏川数据 冰⼭数据 … ⼤模型公司/AI企业 中⼩团队 百度智能云 ⽕⼭引擎 阿⾥云 京东 商汤科技 毫末智⾏ … … 0$AIGC数据标注三⼤影响因素 三⼤影响因素:以技术+场景聚合的⻜轮效应 ⼀看技术能⼒ 数据标注作为AI底层服务,最本质是为客⼾降本增效。持续迭代技术能⼒的企业 获得⼝碑 将有机会脱颖⽽出,包括不限于以下⼏点: 数据闭环⼯具链的智能化⽔平 对⼤模型/算法Know-how的理解 数据⼯程化能⼒、数据基础设施建设 …… ⼆看场景资源 ⾏业Know-how* *能够根据客⼾需求,快速找到并利⽤与场景最为贴合的资源。 三看⻜轮效应 数据标注仍具备⻜轮效应; 灵活性更强 可扩展性 数据处理 能⼒越强 标注经验 技+术 获得⼝碑 越丰富 场景 获客越容易 AIGC赋能数据标注⻜轮 新创业公司⼊局⻔槛进⼀步提⾼; ⾼质量场景数据场景专业⼈才 (领域专家、深度⽤⼾等) 业务量增⻓渠道 + ⼈⼒ 获客容易 AIGC 传统数据标注⻜轮 专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署; 对外输出数据服务的⼤模型公司/AI企业也存在竞争优势。 0%产业竞争格局/市场规模 市场竞争格局 数据标注⾏业传统依靠渠道、⼈⼒等形成的低成本竞争优势将被 我国数据标注⾏业企业竞争格局 1 础 数据 重塑,数据需求⽅将更看重数据质量、场景多样性和可扩展性。基于以上原因,量⼦位智库将从数据基础设施、场景资源两个⽅ ⾯来分析⽬前的业内玩家分布及现状。 第⼀象限:有技术有场景的明星公司 该象限存在两种情况:第⼀种是模型层公司本⾝有⼤模型技术范式以及场景落地经验积累,可快速输出数据解决⽅案,与云服务打包输出建⽴信任;第⼆种则是主要以技术驱动的明星企业,⼤部分拥有数据闭环⼯具链,再结合⼏年来⾏业经验,在⼤模型 浪潮下易受到企业⽤⼾⻘睐。 2代表公司 •整数智能 •恺望数据 •柏川数据 •博登智能 •卓印智能 基代表公司: 设