中泰证券研究所专业|领先|深度|诚信 |证券研究报告| ScaleAI-数据标注独角兽 2023.8.15 分析师:闻学臣 执业证书编号:S0740519090007 •数据标注:对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标 签,生成满足机器学习训练要求的机器可读数据编码。 •以对象作为分类标准,数据标注可以分为图像标注、语音标注、文本标注以及视频标注。 图表:数据标注分类 数据标注分类 概述 图像标注 图像标注类型包括拉框、语义分割、实例分割、目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。图像标注在人工智能与各行各业应用相结合的研究过程中扮演着重要的角色 语音标注 语音标注类型包括ASR语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等 文本标注 文本标注是对文本进行特征标记,为其打上具体的语义、构成、语境、目的、情感等原数据标签,主要用于自然语言处理。通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字符号标注等,可获得高准确率的文本语料 视频标注 视频标注以图片帧为单位,对视频素材中的目标对象进行跟踪,对包括道路、车辆、行人等在内的目标物的特征信息、结构信息、语义信息等进行标记,从而形成训练数据集。按照具体应用类型,视频标注可进一步划分为视频追踪、标签分类、视频打点以及视频信息提取 资料来源:《数据标注工程(第2版)》、中泰证券研究所 •根据GrandViewResearch的报告显示,2022年全球数据收集和标注市场规模为22.2亿美元,预计从2023年到2030年将以28.9%的复合年增长率增长。2022年全球数据标注解决方案和服务市场规模为118.3亿美元,预计从2023年到2030年的复合年增长率为21.3%。 •目前主要的公司包括:ScaleAI、Appen、CloudFactory、LightTag、Alegion等。 图表:数据标注部分公司 资料来源:各公司官网、中泰证券研究所 •ScaleAI2016年成立,创始人为AlexandrWang和LucyGuo(现已离开公司),由著名创业孵化器YCombinator投资。 •其核心业务为数据标注,发家于自动驾驶行业,后切入政府、电商、机器人、大模型等场景。 图表:ScaleAI公司官网 资料来源:公司官网、中泰证券研究所 •ScaleAI的创始人AlexandrWang出生于1997年,是一名华裔,从小生活在新墨西哥州,父母都是物理学家。AlexandrWang在麻省理工就读一年后选择在硅谷参加工作。2016年,他与LucyGuo共同成立ScaleAI,公司使命是加速人工智能应用程序的开发。 •ScaleAI的人员规模从创立时的3人发展至目前的600人,Scale整体执行力强,工作节奏快,喜好招顶级院校的应届毕业生。 图表:LucyGuo和AlexandrWang 资料来源:36氪、中泰证券研究所 •ScaleAI已形成四大产品线: •数据标注是其核心业务,共有九个产品,提供包括图像、视频、文档、音频等标注,并提供标注工具等。同时,ScaleAI针对电商和零售企业,除了提供数据标注服务,还能自动生成产品图,是公司切入GenerativeAI应用领域的一款核心产品。 •ScaleAI在聚焦数据标注领域的同时,也在拓展公司第二发展曲线,目前正在努力切入MLOps和LLM领域,提供各类工具、平台和服务。 图表:ScaleAI产品情况 场景 产品 产品介绍 数据标注 ScaleRapid 可以在用户上传数据后加快数据标签的形成,要求数据由Scale标注,ScaleRapid正在试图赶上SuperAnnotate在创建工作流和质量方面的领先地位 ScaleStudio 提供标注工具,用户可以批注、监控和提高数据质量,要求用户自带标注人员 Scale3DSensorFusion 3D传感器数据标注 ScaleImage 图像标注 ScaleVideo 视频标注 ScaleText 文档标注 ScaleAudio 人工音频标注和分类 ScaleMapping 地图标注,可自定义 ScaleCatalog 电商和零售团队可用于商品标注,AI生成产品图 管理与评估 ScaleNucleus 2020年8月推出的数据集管理平台,用户可以在Nucleus中可视化产看标签性能、所搜特定标签条件下的图片、直接微调/修正标签、比较不同版本ML模型的准确度指标、查找相似图片、写 作等,该产品为Scale拓展了更多中小企业客户 ScaleLaunch 帮助用户在生产中部署和交付ML模型,可以配置和拓展CPU的CPU计算,进行影子部署、A/B测试和rollback,实时监控ML的性能、延迟时间等。ScaleLaunch是ScaleAI试图赶上 Dataloop或V7公司的地方 自动化 ScaleContentUnderstanding 帮助用户分析内容(比如人物表情是开心/难受)并将内容分类,以及标记敏感内容 ScaleInstantML 用户只需上传数据,即可生成用户要求的ML模型,比如用于文本分类/图像分割/物体检测的模型。当用户上传更多数据或随着时间推移,模型会不断改进 ScaleSpellbook 可以构建、比较和部署大语言模型的应用程序。用户上传数据 和prompt,即可比较LLM模型并进行微调,最后可以一键部署到API接口 生成 ScaleSynthetic 2022年推出,可以利用计算机算法生成多样化合成数据,但是同合成数据训练模型可能不会使得ML模型的性能得到提高 资料来源:36氪-海外独角兽、公司官网、中泰证券研究所 •ScaleAI成功打开局面,已渗透不同市场领域。目前客户包括自动驾驶领域、金融科技公司、政府(国防部、美国空军等)、零售与电商、AR/VR、RLHF等。 图表:ScaleAI客户情况 资料来源:公司官网、中泰证券研究所 •ScaleAI盈利模式分为两种: •Consumption-base:起价+标注价(标注总数量*每条标注价格)。 •Enterprise:依据具体的企业级项目的数据量及服务进行收费。 图表:ScaleAI收费情况 Consumption-base模式 Scalelmage 每张图片2美分,每条标注6美分 ScaleVideo 每帧视频13美分,每条标注3美分 ScaleText 每项任务5美分,每条标注3美分 ScaleDocumentAl 每项任务2美分,每条标注7美分 Enterprise模式 依据具体的企业级项目的数据量及服务进行收费 资料来源:36氪-海外独角兽、中泰证券研究所 •根据Growjo的数据显示: •ScaleAI的年收入估计为277.7M美元; •每位员工的估计收入为21万美元; •目前的估值为7.3B美元。 图表:ScaleAI相关经营数据 年收入约为277.7M美元员工平均收入21万美元估值7.3B美元 资料来源:Growjo、中泰证券研究所 •ScaleAI共获得六轮融资,总共筹集了6.026亿美元的资金。他们的最新资金是在2021年4月13日从E轮融资中筹集的。 •种子轮:获得12万美元; •A轮融资:由Accel领投,共筹集450万美元; •B轮融资:由IndexVentures领投,共筹集1800万美元; •C轮融资:由FoundersFund领投,共筹集1亿美元; •D轮融资:由TigerGlobalManagement领投,共筹集1.55亿美元; •E轮融资:由DragoneerInvestmentGroup,Greenoaks,TigerGlobalManagement领投,共筹集3.25亿美元。 图表:ScaleAI融资情况 2016年8月22日 种子轮 12万美元 - 2017年5月23日 A轮融资 450万美元 Accel领投 2018年8月7日 B轮融资 1800万美元 IndexVentures领投 2019年8月5日 C轮融资 1亿美元 FoundersFund领投 2020年12月1日 D轮融资 1.55亿美元 TigerGlobalManagement领投 2021年4月13日 E轮融资 3.25亿美元 DragoneerInvestmentGroup,Greenoaks,TigerGlobalManagement领投 资料来源:Crunchbase、中泰证券研究所 •公司使命:ScaleAI认为从传统软件到人工智能的转变是这个时代最重要的转变之一,而ScaleAI的使命是在各个行业更快地实现这一目标。因为这个使命,使得公司能够在短短几年内布局多个行业领域,也可以期待未来公司会在哪些新领域持续突破。 •整体研究下来,能够明确的感受到Scale团队非常积极且有活力,对于行业上的新动态,他们能够敏锐地感知,并快速作出反应,高效地提供相应的数据标注产品。 图表:ScaleAI 资料来源:公司官网、中泰证券研究所 AI技术落地不及预期:AI技术更新迅速,如果公司无法跟上技术应用的步伐,可能会被竞争对手超越。同时AI技术的使用会改变用户的工作方式,如果用户不愿意接受这些改变,可能会影响公司的潜在业务增长速度。即使AI技术在实验室环境中表现优秀,但在实际应用中可能遇到许多未预见的问题和挑战。技术落地的过程中可能出现技术难题、系统稳定性、性能等问题。 产品市场竞争加剧:随着竞争的加剧,公司需要不断创新以保持竞争优势。这可能需要大量的研发投入和时间,同时还需要承担创新失败的风险。同行业的竞对公司可能通过降低价格来吸引客户,这可能会迫使公司也降低价格,从而影响营收和利润。AI产品落地过程中,竞争加剧可能会分散市场,导致公司的市场份额下降。 数据更新不及时:AI领域变化较快,报告中引用的部分图表和数据存在一定的时效性,因此可能面临数据更新不及时 的风险 12 中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。 。本公司不会因接收人收到本报告而视其为客户。 本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。 市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负 任何责任。 投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。 本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进 行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。 13