海天瑞声机构调研报告 调研日期:2024-03-01 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 2024-03-05 证券事务代表张哲 2024-03-01 特定对象调研腾讯会议 交银施罗德基金管理公司何帅,黄浩峻 1、2023年在大模型出来后,文本方面数据需求具体有什么变化? 通用大语言模型初始训练所需的大部分文本,通常来自客户自身多年积累的用户数据及部分网络爬取数据,但由于自身数据/网络爬取数据带来的领域单一、场景受限、客户不具备数据加工能力等问题,导致数据质量不高,训练效果不理想。为提升数据质量,满足大模型训练的持续发展需求,下游客户倾向于向外部第三方专业数据服务商采购数据。同时,当大模型完成初训,正式向公众上线后,各大模型厂商开始追求其大模型产品的基础性能、效果、安全性,一旦出现答非所问、逻辑错误、意识形态错误等问题,对大模型厂商的品牌效应、技术能力、行业口碑会造成很大的影响和冲击,上述因素也催生了大模型客户外采数据需求,释放出大量有关强化学习的文本标注需求。此外,在大模型完成通用能力训练后,开始向更多垂向场景渗透时,也将带来海量垂向领域的文本数据需求。2、为什么海天收入里一直是语音占比较高,而CV、NLP占比较低,是因为语音生产的技术门槛更高吗? 首先,相比于CV和NLP,语音是更早实现商业化落地的人工智能技术,比如天猫精灵、小爱同学、小度等智能音箱,苹果Siri、三星Bixby、腾讯微信语音交互等手机终端语音助手等产品纷纷推出市场,使用到智能语音的产品更为丰富和广泛,因此推高了市场上语音数据需求。此外 ,相比CV、NLP,语音数据的获取难度更高,一方面,市面上开源或网络获取的数据集质量和规模均较为有限,很难满足要求。以语音合成技术为例,对语音数据音质要求更为严苛,通常需要专业录音棚环境录制的10小时以上的音频;另一方面,为了实现最佳合成效果,通常音频需 要覆盖多类音素组合以及多类情感表达,需要专业的数据服务商根据不同语种的发音特点以及客户具体使用场景进行综合设计,因此客户通常需要外购语音数据。另外,相比于竞对,海天在语音方面积累深厚,尤其是多语种方面的积累和能力,可以更好服务境外公司全球化布局。截至目前,公司已覆盖超过200种语种/方言,同时储备的高质量语音数据集达到1,041个,积累量全球领先。以上因素,共同使得公 司语音收入占比较高。当前,随着市场端客户群体在自动驾驶、LLM、文生视频/图等应用方向研发投入的逐步抬升,公司在视觉、NLP方向的收入预期也将同步提升。 3、海天目前在做的强化学习标注,具体有哪些类型? 公司目前所做的强化学习标注,主要包括问题分类/打标签、对问题/回复进行改写、对现有大模型输出的多种答案的优劣进行排序/打分等。 4、请问2023年公司收入下滑的原因是什么? 2023年,受境外部分客户阶段性裁员、业务方向及研发节奏周期性调整等影响,部分客户2023年预算释放进度放缓,同时叠加20 23年上半年数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑。境内业务方面,虽然宏观稳经济政策已初见成效,但 国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。 5、目前的海天的标注方式是纯人工标注还是人机协同? 目前公司的各类数据生产均已实现人机协同,通常原始数据经过清洗后,以及专业人员标注前,会预先用公司相关算法先行完成数据预标注 ,而后标注人员针对算法漏标或错标的数据进行进一步精细化标注,以获取高质量训练数据。例如在智能驾驶领域的车道线标注任务中,可在人工标注前,先利用算法对车道线进行预先识别和标注,这样标注人员操作时仅需检查和校正部分未被算法识别或准确标注的图片,大大提升了标注效率,大幅缩减了人工标注时长。