公司代码:688787公司简称:海天瑞声 北京海天瑞声科技股份有限公司2023年半年度报告 重要提示 一、本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、重大风险提示 公司已在本报告中详细描述可能存在的风险,敬请查阅第三节“管理层讨论与分析”之五“风险因素”部分,请投资者注意投资风险。 三、公司全体董事出席董事会会议。 四、本半年度报告未经审计。 五、公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人(会计主管人员)杨韩声明:保证半年度报告中财务报告的真实、准确、完整。 六、董事会决议通过的本报告期利润分配预案或公积金转增股本预案无 七、是否存在公司治理特殊安排等重要事项 □适用√不适用 八、前瞻性陈述的风险声明 √适用□不适用 本报告中所涉及的未来计划、发展战略等前瞻性陈述,不构成本公司对投资者的承诺,敬请投资者注意投资风险。 九、是否存在被控股股东及其他关联方非经营性占用资金情况否 十、是否存在违反规定决策程序对外提供担保的情况?否 十一、是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性否 十二、其他 □适用√不适用 目录 第一节释义5 第二节公司简介和主要财务指标9 第三节管理层讨论与分析13 第四节公司治理53 第五节环境与社会责任56 第六节重要事项58 第七节股份变动及股东情况96 第八节优先股相关情况106 第九节债券相关情况107 第十节财务报告108 备查文件目录 载有公司负责人、主管会计工作负责人、会计机构负责人(会计主管人员)签名并盖章的财务报表。报告期内公开披露过的所有公司文件的正本及公告的原稿。 第一节释义 在本报告书中,除非文义另有所指,下列词语具有如下含义: 常用词语释义本公司、公司、海天瑞声 指 北京海天瑞声科技股份有限公司 控股股东、实际控制人 指 贺琳 中瑞智 指 北京中瑞智科技有限公司,为公司的全资子公司 中瑞安 指 北京中瑞安投资中心(有限合伙),为公司股东 中瑞立 指 北京中瑞立投资中心(有限合伙),为公司股东 安徽瑞天数智 指 安徽瑞天数智科技有限公司,为公司的全资子公司 山西瑞天数智 指 山西瑞天数智科技有限公司,为公司的全资子公司 香港海天瑞声 指 海天瑞聲(香港)科技有限公司,为公司的全资子公司 INFINITYAICORPORATION 指 INFINITYAICORPORATION,为香港海天瑞声的全资子公司 创世联合 指 北京创世联合投资管理有限公司,为北京中瑞安投资中心(有限合伙)普通合伙人、执行事务合伙人 中移投资 指 中移投资控股有限责任公司,为公司的股东 清德投资 指 北京清德投资中心(有限合伙),为公司的股东 上海丰琬 指 上海丰琬投资合伙企业(有限合伙),为公司的股东 中网投 指 中国互联网投资基金(有限合伙),为公司的股东 Appen 指 AppenLimited,是一家成立于澳大利亚的训练数据产品和服务提供商 数据堂 指 数据堂(北京)科技股份有限公司 标贝科技 指 标贝(北京)科技有限公司,是一家国内同行业的训练数据产品和服务提供商 证监会 指 中国证券监督管理委员会 上交所 指 上海证券交易所 工信部 指 中华人民共和国工业和信息化部 《公司法》 指 《中华人民共和国公司法》 《证券法》 指 《中华人民共和国证券法》 《上市规则》 指 《上海证券交易所科创板股票上市规则》 《公司章程》 指 《北京海天瑞声科技股份有限公司章程》 《个人信息保护法》 指 《中华人民共和国个人信息保护法》 《数据安全法》 指 《中华人民共和国数据安全法》 报告期 指 2023年1月1日至2023年6月30日 华泰联合证券 指 华泰联合证券有限责任公司,公司保荐机构、持续督导机构 元、万元、亿元 指 如无特别说明,均以人民币为度量币种 训练数据 指 通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据 算法 指 解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制 算力 指 计算能力 人工智能(AI) 指 ArtificialIntelligence,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学 机器学习 指 MachineLearning,是一门专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科 深度学习 指 DeepLearning,机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本 模型 指 为解决人工智能领域的相应问题,而专门设计的某种算法框架,并通过大量数据训练拟合来调整相应参数,最终得到能解决实际问题的一套算法和参数 引擎 指 是计算机平台上开发相应应用程序或软件系统的核心组件 鲁棒性 指 鲁棒性亦称稳健性、强健性,是指计算机软件/系统在异常和危险情况下生存的能力。例如,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性 智能语音 指 实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS) 语音识别(ASR) 指 AutomaticSpeechRecognition,是一种将语音信号自动转换为文本的技术,是实现智能人机交互的关键技术之一 语音合成(TTS) 指 TexttoSpeech,即“从文本到语音”,是一种将文字智能地转化为自然语音的技术 自然语言/自然语言处理(NLP) 指 NaturalLanguageProcessing,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 计算机视觉(CV) 指 ComputerVision,是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等 光学字符识别(OCR) 指 是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程 IoT 指 物联网(IoT,Internetofthings)即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与网络结合起来而形成的一个巨大网络,实现任何时间、任何地点,人、机、 物的互联互通 智能驾驶 指 指的是机器帮助人进行驾驶,以及在特殊情况下完全取代人驾驶的技术 虚拟人 指 虚拟人(VirtualHuman)是通过建模、动作捕捉或AI等科技手段,制作出具有外貌特征和行为模式的虚拟形象,并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制,提供了更多沉浸感、参与感和互动感 原料数据 指 RawData,即未经加工处理的原始数据 采集 指 使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程 标注 指 训练数据的生产步骤之一,指对原料数据进行加工,进而生成符合算法模型训练要求的训练数据的过程 转写 指 通过软件加工、人工听写等手段将语音片段转换为对应的文本的加工步骤 词性 指 以词的特点划分的词类,如名词、代词、动词、形容词、数词、量词等 韵律 指 韵律通常指语音语句中各词之间的停顿时长情况 声纹 指 用电声学仪器显示的携带言语信息的声波频谱 音色 指 声音的特征,指的声音在波形方面具有的与众不同的特性 AIGC 指 AIGeneratedContent,又叫生成式人工智能,是指是使用机器学习和深度学习算法,从现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据,如图像、音频、视频和文本,并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用 GPT-3 指 GPT-3(GenerativePre-trainedTransformer3)是由美国OpenAI开发的一种自然语言处理模型 ChatGPT 指 美国OpenAI研发的聊天机器人程序,ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务 Llama 指 Llama是由Meta开发的一款大语言模型 Palm 指 Palm是由Google开发的一款大语言模型 大模型 指 大模型就是FoundationModel(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型 多模态 指 多模态机器学习(Multi-modalMachineLearning)是一种机器学习方法,用于处理多种类型的数据,如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模,以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型 人类反馈强化学习/RLHF 指 英文为ReinforcementLearningfromHumanFeedback,缩写为RLHF,是一种机器学习方法,旨在使智能系统从环境中学习,通过引入“奖励”和“惩罚”信号,让系统自行探索环境并学习最佳行为 策略,以最大化某种特定目标 Prompt 指 提示文本,提供模型完成下游任务所需的上下文等信息,以帮助模型更好地理解任务需求,从而更好地完成下游任务 预训练/Pre-training 指 预训练是通过在大规模数据集上进行初始训练,学习通用特征和表示的机器学习方法。预训练模型可用于后续任务,并在多个领域应用广泛 模型微调/Fine-tune 指 微调,是一种常用于预训练模型的模型优化技术,基于已经训练好的预训练模型进行微调,使模型能够更好地适应目标任务 奖励模型/RewardModel 指 奖励模型(RewardModel)是在强化学习中使用的一种关键概念。它定义了在特定任务中,智能体所追求的目标和奖励的方式。奖励模型通过指定在智能体采取行动后,所获得的奖励信号来引导智能体的学习和决策过程。奖励模型可以基于任务的目标设定,对智能体的行为进行正向奖励或负向惩罚,从而影响智能体的策略优化和决策选择 第二节公司简介和主要财务指标 一、公司基本情况 公司的中文名称 北京海天瑞声科技股份有限公司 公司的中文简称 海天瑞声 公司的外文名称 BeijingHaitianRuishengScienceTechnologyLtd. 公司的外文名称缩写 DATAOCEANAI 公司的法定代表人 贺琳 公司注册地址 北京市海淀区成府路28号4-801 公司注册地址的历史变更情况 2012年9月14日,公司地址由北京市海淀区知春路甲48号3号楼4单元6B变更为北京市海淀区成府路28号4-801 公司办公地址 北京市海淀区成府路28号4-801 公司办公地址的邮政编码 100083 公司网址 www.dataoceanai.com 电子信箱 ir@dataoceanai.com 报告期内变更情况查询索引 / 二、联系人和联系方式 董事会秘书(信息披露境内代 表) 证券事务代表 姓名 吕思遥 张哲 联系地址 北京市海淀区成府路28号4-801 北京市海淀区成府路28号4-801 电话 010-62660772 010-62660772 传真 010-62660892 010-62660892 电子信箱 ir@dataoceanai.com ir@dataoceanai.com 三、信息披露及备置地点变更情况简介 公司选定的信息披露报纸名称 《中国证券报》《上海证券报》《证券日报》《证券时报》 登载半年度报告的网站地址 www.sse.com.cn 公司半年度报告备置地点 公司董事会办公室 报告期内变更情况查询索引 /