海天瑞声机构调研报告 调研日期:2024-05-21 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 2024-05-23 证券事务代表张哲 2024-05-21 特定对象调研腾讯会议 信达澳亚基金管理公司孔文彬,刘小明,何鑫,王天乐 1、公司2023年收入下滑的原因什么? 2023年,公司营业收入为1.70亿元,较去年同期下降35.33%,主要系受境外部分客户进行阶段性裁员、业务方向及研发节奏周 期性调整等影响,部分客户2023年预算释放进度放缓,同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响,公司境外 收入同比大幅下滑。境内业务方面,虽然宏观稳经济政策已初见成效,但国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。2、为什么公司2023年度研发投入下降? 根据近几年公司的整体研发战略和投入节奏安排,公司在数据生产智能化、以及标准化数据集产品建设等方向的投入强度逐渐趋于平稳所致。在数据生产智能化投入方面,以DOTS-AD、一体化数据处理平台等为代表的智能驾驶数据、以及综合性数据处理平台的整体能力已达到阶段性的成熟状态,因此公司在该等领域的研发投入强度较去年同期有所趋缓;在标准化数据集产品建设方面,根据公司IPO募投项目建 设的规划,标准化数据集的集中建设期集中于前两年,并已于2023年5月顺利结项,因此报告期内公司在该领域的投入强度较去年呈现 自然回落状态。3、很多大模型已具有自动标注能力,请问这些公司推出的自动标注功能会不会让公司的业务不存在了?未来会对公司业务影响有多大? 自动化数据标注一直以来都是数据服务行业的发展趋势,同时也是数据服务企业的核心竞争能力之一,自动化标注的核心不是完全替代人类 ,而是提高人机协作效率,海天瑞声近年来在研发领域持续加大投入,不断提升公司数据生产的智能化水平。4、请问大模型向多模态发展后,是否会对公司业务产生正向影响? 大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。 5、目前公司在大模型数据方面的进展如何? 大模型标准化数据集方面,公司正在持续进行包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集” 、“视觉大模型(图文生成)预训练及微调数据集”等方向的数据集建设。同时,公司基于过往数据服务经验以及商务资源优势,已与国内众 多知名大模型厂商开展业务合作,业务范围覆盖RLHF数据评分、Prompt改写、人机多轮交互等强化学习阶段数据需求。此外,为更好抢占大模型数据服务市场,公司正在通过前瞻性研究,持续探索拓展大模型相关数据服务范围以及服务能力,例如,通过研究数据清洗技术、模型评 测数据集设计技术、大模型微调与应用等,进一步将数据服务拓宽范围至预训练以及模型评测阶段;同时,探索利用大模型技术,提升大模型数据的规模化生产效率。