海天瑞声机构调研报告 调研日期:2024-11-05 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 2024-11-08 董事会秘书张哲,投资者关系负责人袁璐 2024-11-052024-11-07 电话会议腾讯会议 景顺长城 基金管理公司 陆哲皓 银华基金 基金管理公司 孙蓓琳,吴文蔚,杜宇,郭磊,同颖茜,王利刚,向伊达 惠升基金管理公司 基金管理公司 陈桥宁 长盛基金 基金管理公司 杨睿琦 中邮创业基金 基金管理公司 姚婷 长城基金 基金管理公司 林皓,赵凤飞 中信建投 证券公司 张咏梅 1、请问公司三季度收入大幅增长的原因是什么? 2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要是受益于大模型技术的快速发展以及应用场景不断落地,以智能 终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。由此带来 ,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。截至9月末,公司已为近20家境内外大模型企业、科研机构,在预训练、指令微调、偏好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用? 2024年1-9月,归属于上市公司股东的净利润为378.87万元,同比增长3,590.86万元。背后的驱动因素,除了公司整体营 业收入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至66.83%。此外,为进一步提 升整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司DOTS一体化数据处理平台开发已达 到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大幅降低,以上因素共同驱动公司前三季度净利润同比大幅增长。 3、智能终端的AIagent出来之后,对数据需求有什么变化? 智能终端侧的AIagent将成为继智能驾驶之后又一个重要的AI落地场景,会带来新型的数据需求。首先,智能终端agent需要能够处理和理解来自终端场景的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习,使得AIagent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AIagent需要大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AIagent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和多风格语音数据的进一步需求。针对以上AIagent多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。4、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局和投入? 为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及 服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin及CVPR等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。5、前三季度,公司在大模型领域进行了哪些投入? 公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式。公司已和清华大学联合启动多语种语音大模型 研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。 6、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何? 语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括 东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。7、客户什么时候会选择定制服务,什么时候会选择标准化数据集产品? 通常来说,客户在选择标准化数据集或定制化数据服务时的逻辑为:在客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集(即,标准化数据集)进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工(即,定制化数据服务),加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。相较而言,对于新兴的人工智能领域,尤其是在向 细分产业或场景拓展初期,通常来讲定制化数据需求占比偏多,而后随着公司对于该领域熟知程度的加深、且市场上假若能逐渐形成共性需求,则公司会逐步拓展该领域的标准化数据集建设。 8、训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何? 定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定 产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。 价格走势主要由市场的供需关系决定。如果某类数据为市场稀缺数据,例如具有较高进入壁垒的多模态、虚拟人等前沿类数据需求、或传统业务里的多语种数据,都可在一定时间内维持较高的溢价水平。但在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况。因此,未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争带来的过度消耗。9、项目周期一般有多久? 公司的项目实施周期可以分为以下2个类别:(1)产品类数据库的周期:因为其在销售时已经是成品状态,通常1-2个月能实现收入确认; (2)定制类服务的项目周期:根据项目实际,生产过程可能涵盖设计、采集、处理、质检等环节,平均周期在6个月左右。如果仅为数据加工服务,则根据客户提供的数据量和难度,周期在3-9个月不等。 10、境外业务的毛利率为什么会比境内业务高? 首先,公司境外业务当中标准化数据集产品的销售占比相对更高一些,而标准化产品的销售毛利率为100%,远大于定制服务毛利水平。 此外,相比于境内客户,境外客户更认同数据服务商的综合能力及品牌价值、价格敏感度相对较低。以上两个因素综合导致境外业务较高的毛利水平。