您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[发现报告]:海天瑞声机构调研纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

海天瑞声机构调研纪要

2024-10-23发现报告机构上传
海天瑞声机构调研纪要

海天瑞声机构调研报告 调研日期:2024-10-23 北京海天瑞声科技股份有限公司成立于2005年,是我国最早从事AI训练数据解决方案提供商之一。海天瑞声作为AI数据行业首家主板上市公司,致力于为AI企业、研发机构提供AI数据集及服务。公司覆盖多语言、跨领域、跨模态的人工智能数据,包括智能语音、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。海天瑞声与全球810家科技互联网、社交、IoT、智能驾驶等领域的主流企业,以及教育科研机构等建立了深度合作关系,成功交付数千个定制项目,深得客户信赖。 2024-10-25 证券部总经理张哲 2024-10-232024-10-24 现场参观海天瑞声会议室 北京证券业协会 协会 王羽琛,蔡燕 财联社 其它 罗淑锦 天风证券 证券公司 刘琳琳,王祺深 华泰证券 证券公司 郭丽丽,王思佳 华林证券 证券公司 陈旸,李钊,张磊 山西证券 证券公司 李昊,高泽栋 国都证券 证券公司 王颖杰,安荔,邹燚 东吴证券 证券公司 邹欣然,靳胜富,杨智,刘美玲 中银证券 证券公司 唐丝,汪亚林,韩振,沐浩 中金公司证券公司王立,郝杰灵,涂通 中金财富证券公司赵倩 1、训练数据的生产过程是什么样的? 训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测) ①设计——训练数据集结构设计 在设计环节中,通过考虑算法模型的具体应用领域、应用场景以及预期实现的训练效果,反过来确定训练数据集内的数据类型、数量、比例分布等,相应确定原料数据的采集要求,为后续采集工作奠定基础。以语音识别、语音合成领域的训练数据集为例,在原料数据的采集环节 ,发音人(被采集对象)需要朗读公司提供的基础语料,并用指定的录音设备录制以形成原料音频数据。因此,在设计阶段,公司就需要考虑如何设计基础语料,才能使得容量有限的训练数据集能够覆盖尽可能多的自然语言现象,如覆盖更多的发音习惯、语言特点、句长分布,达到更好的音素平衡效果等,从而使得算法模型获得更好的训练结果。 ②采集——获取原料数据 根据此前设计好的训练数据集结构及数据量目标,制定原料数据采集方案并开展原始数据采集工作。采集过程所涉及的主要考虑因素包括 : A.数据量方面:需根据成品训练数据集的目标数据量,预留少量冗余。在实际采集过程中,由于可能发生少量录音不合格的损耗情况,通常会在总采集数据量中预留少量冗余,从而略大于最终要交付的数据量,以备替换偶然出现的不合格录音数据。B.数据属性方面:在采集环节中,根据客户算法模型应用的目标场景、领域等个性化需求,采集特定原料数据。以语音识别训练数据为例,在采集环节中,通常需要根据语音识别模型的语种/方言类别、目标应用场景(安静、噪音;家居、车载等),相应定义寻找符合要求的发音人,在合适的采集场景下由发音人朗读、或自然说出录制语音片段,生产原料音频数据。以语音合成训练数据为例,通常需要根据客户对拟合成的语音的风格(温柔、甜美、科技感等)、年龄(成人、儿童)、性别、语种、口音等方面的具体需求寻找发音人,并组织发音人按照前 期设计完成的音素集、语料库等资料进行朗读,录制生成原料音频数据。此外,由于语音合成训练数据的录制对信噪比、底噪、录音棚混响时间等参数、指标和录音设备的要求很高,通常需要在专业级别的录音棚中完成录制工作。 ③加工——数据标注 通过公司ADS和VDS平台,对语音、文本、图片等原料数据进行标注,使其成为结构化可被算法识别和学习的专业训练数据集。该环节中,公司通常会应用相关算法模型,通过算法完成预识别和预标注,可以显著提高数据标注效率,降低标注成本。 ④质检——各环节数据质量检测 质检环节会渗透在整个训练数据的全生产流程,具体包括:A.在前端采集环节,公司开发的采集工具可对原始数据质量进行即时质检,不符合要求的原始数据不被计入采集数据之中;B.在中端加工环节,公司运用自动标注工具+人工校对检验的方式对数据加工情况进行检查,提升加工效率和准确度;C.在后端大规模质检环节,公司运用全自动校验技术,实现大规模训练数据集的质检需求。2、训练数据产品和服务的定价模式、收费模式是什么样的? 定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛 利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。3、语言学研究的具体作用和价值是什么?目前公司语言学研究的最新进展是什么? 语音语言学领域的专业知识是构建高质量语音识别算法和语音合成算法的关键要素。以语音合成为例,在语音合成系统中,发音词典提供了从单词到音素之间的映射关系,将语言模型建模单位解构为声学模型的建模单元,为后续合成发音奠定基础。语音合成系统接收到文本信息后,首先运用发音词典对其进行语言处理、韵律处理,将文本(单词、字符等)转换并解构为一系列对应的发音符号(类似于国际音标);随后 ,系统中的语音合成器接收到前述发音符号,运用语音库合成转换为语音对外输出,最终实现文本到语音的语音合成过程。可见,高质量的发音词典在语音合成系统中具备重要作用。由上述示例可以看出,要获得高准确率的语音合成算法模型,就要求智能语音训练数据结构中包含 高质量的发音词典。要在大词汇量的连续语音交互中正确、合理运用智能语音相关的语言模型、语法及词法模型,则必须有效地运用计算语言学方面的基础知识和研究成果。语音语言学领域的基础研究成果和专业知识构建了发音规则、发音词典的形成基础,进而为构建高准确率的语音识别、合成训练数据提供了条件。 公司在语音语言学基础研究方面有深厚积累:公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至目前,公司的产品/服务已覆盖超过200个语种/方言,累计词条数超过1,100万条,可构建高质量的智能语音训练数据。4、公司不是仅仅提供数据标注服务,而是提供整体训练数据解决方案,那么在解决方案中的各个环节的技术难度如何? 首先训练数据集的设计和原料数据采集环节是存在相当的技术难度的,比如语音类采集,文本设计是否贴合实际场景、如何实现最小采集量且确保场景覆盖丰富度等因素均是设计和采集环节需要考虑和解决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计合理的数据浓度达到最小成本最高训练效果,如果是垂直行业数据集的采集,例如交通行业内的自动驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。 数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台实现机器的辅助标注,并在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。5、辅助标注、数据生成技术对公司是否有影响? 其实,数据辅助标注技术、数据生成技术一直都是存在的。 实现最佳的人机协作模式下的辅助标注,是海天瑞声一直在探索和努力的方向,通过持续算法投入,逐步提升数据的自动化处理程度,在保证数据质量的前提下,提高数据处理效率,减少人力参与程度、进而降低成本。 数据生成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。 公司在本行业深耕多年,一直在持续紧密关注各类技术的变化、演进,我们会选择最适用的技术来助力业务目标的实现,并将通过不断的研发投入,确保自身在技术领域的持续领先性。 6、大模型数据来源有哪些?对于大模型训练来说,哪些数据是有价值的,哪些是没价值的? 按照数据来源的不同,数据可分为个人数据、企业数据、公共数据和版权数据,四类数据分别来自个人、企业、党政机关、企事业单位以及版权方。对于大模型训练来讲,某类数据是否有价值,要结合该模型应用领域进行综合判断。例如,若某大模型应用领域为文学创作,则来自版权方的散文、小说、诗词等数据就会更具价值;若某大模型想提升其在民生政务领域的客服能力,则来民生政务服务平台的此类对话数据将产生重要价值。因此,某类数据是否有价值要结合其对应的应用场景综合考量。7、请问大模型向多模态发展后,是否会对公司业务产生正向影响? 大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。 8、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别? 大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模 、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。 此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。9、决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何? 智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配 置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。 这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。 10、智能驾驶行业的核心竞争力是什么? 智能驾驶数据领域的核心竞争力主要体现在三个方面,分别是平台能力、算法能力以及数据安全能力。 平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。 第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。 第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家相关法律法规要求数据流转链条上各类企业必须做好充分的数据安全保障。因此,未来不具备相关数据安全能力的供应商将逐渐被市场淘汰。

你可能感兴趣

hot

海天瑞声机构调研纪要

信息技术
发现报告2024-03-29
hot

海天瑞声机构调研纪要

信息技术
发现报告2024-05-08
hot

海天瑞声机构调研纪要

信息技术
发现报告2024-09-11
hot

海天瑞声机构调研纪要

信息技术
发现报告2024-05-30
hot

海天瑞声机构调研纪要

信息技术
发现报告2024-05-21