您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机行业数据要素专题研究报告:大模型与数据共振,数据要素市场方兴未艾 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业数据要素专题研究报告:大模型与数据共振,数据要素市场方兴未艾

信息技术2023-07-17国金证券如***
计算机行业数据要素专题研究报告:大模型与数据共振,数据要素市场方兴未艾

投资逻辑 数据成为生产要素,成为数字经济时代的“石油”。数据已成为新型生产要素,具有劳动工具和劳动对象的双重属性。 数据要素市场的目标是实现数据要素的市场化配置,其目的是建立以市场为基础的调配机制,实现数据的流动价值或在流动中产生价值。数据要素市场可以归结为数据采集、存储、加工、流通、分析和生态保障六大模块,主要通过业务贯通、数智决策和流通赋能三条途径实现自身价值。国家工业信息安全发展研究中心数据显示,我国2021年数据 要素市场规模达815亿元,预计“十四五”期间年均增长率达25%,有望在2025年达到1990亿元的市场规模。 政策催化强劲,行业景气度拐点已至。2022年12月19日,“数据二十条”正式发布,这是继《中共中央国务院关于 构建更加完善的要素市场化配置体制机制的意见》之后首次在国家级政策文件中全面明确数据基础制度,2023年3月,国家数据局获批成立,数据要素发展再提速。政策端持续催化下,中国电子以及上海、河南、福建、陕西、成都、南京等地陆续成立数据集团,有望成为各地政府参与数据运营的抓手。此外贵阳、上海、深圳各地数据交易所陆续挂牌运营,截至2022年底,全国数据交易所已近50家,数据产品和服务类型日益丰富,加速了数据要素价值转化。 AI大模型向行业垂类模型落地演进,数据成为核心壁垒。数据贯穿AI垂类模型训练的始终,AI垂类模型强调领域的 know-how,对数据在深度和质量上的要求更高,增加训练数据量对模型性能提升来说更具性价比。行业数据成为国内垂类模型卡点,管国内AI大模型已经取得较大进展,但是行业数据的可得性限制了垂类模型的应用落地。当前阶段,拥有大量数据积累并且具备行业know-how的企业能够在大模型的基础上学习行业特色数据与知识,打造出AI垂类模型。 AI垂类模型加速数据要素市场发展,推动数据流动。根据艾瑞咨询数据,2022年我国AI基础数据服务市场规模为 31亿元,2027年有望达到79亿元,2022-2027年CAGR达20.6%。在垂类模型的训练过程中,对数据量、数据集的丰富度和全面性以及数据的及时性都提出了一定的要求,数据要素市场打通了“数据要素供给-数据要素流通-垂直领域模型研发及应用”循环发展的产业链条,其提供的海量丰富的训练数据是垂类模型的基础原料,市场流通则是连接数据要素与垂类模型的枢纽。在垂类模型的推动下,数据要素市场的新业态也不断涌现,多地以数据交易所为主导,建立数据要素与大模型的“产业联盟”,数据要素市场建设再加速。 投资建议 当前我国数据要素市场正面临从零到一的重大拐点,我们预判数据要素市场是中国未来十年极具成长潜力的赛道,板块将持续受益政策加持和产业发展逐步验证的双重催化。我们建议关注重点环节的“卡位”逻辑,从数据要素的供给侧、运营端、安全防护三个维度进行分析,筛选出兼具基本面和商业模式初具雏形的优质企业进行提前布局。数据要素供给侧推荐中科江南、航天宏图,数据要素运营端推荐易华录、深桑达A,安全防护侧推荐永信至诚。 风险提示 政策落地不及预期、数据资产化发展不及预期。 内容目录 1.数据要素市场是数字经济发展的核心引擎5 1.1数据成为生产要素,成为数字经济时代的“石油”5 1.2政策催化强劲,行业景气度拐点已至7 2.垂类AI大模型加速落地,推动数据要素市场发展13 2.1AI大模型向行业垂类模型落地演进,数据成为核心壁垒13 2.2AI垂类模型加速数据要素市场发展,推动数据流动18 3.投资建议20 3.1中科江南:财政、医保信息化领导者23 3.2航天宏图:空天地一体化数据领域龙头24 3.3浩瀚深度:运营商数据可视化市场领军者24 3.4金山办公:国产办公软件龙头25 3.5深桑达A:CEC旗下电子云和数据要素的核心运营者26 3.6易华录:CETC旗下数据安全存储和运营的先行者26 3.7星环科技:国产分布式数据库和向量数据库龙头27 3.8太极股份:CETC旗下政务云基础设施承建方29 3.9永信至诚:人工智能模型安全与数据安全实战化测评能力提供方29 3.10英方软件:大数据灾备领域龙头31 4.风险提示31 图表目录 图表1:数据成为新型生产要素且具有劳动工具和劳动对象双重属性5 图表2:数据要素通过业务贯通、数智决策和流通赋能三条途径实现价值释放6 图表3:数据要素产业链六大模块6 图表4:数据要素产业图谱7 图表5:2025年我国数据要素市场规模预达1990亿元7 图表6:2022年我国数据要素市场各产业链占比7 图表7:数据要素相关政策不断出台8 图表8:“数据二十条”建立数据要素整体框架9 图表9:我国数字经济占GDP比例约40%10 图表10:国家数据局管理职责和权限10 图表11:我国中央及地方性数据集团10 图表12:国内大数据交易所(中心、平台等)建设历程11 图表13:我国土地财政收入增速下降12 图表14:欧洲地区率先实行数据服务税12 图表15:“土地财政”和“数据财政”具备双规并行的可能性13 图表16:全球知名大模型发布时间节点13 图表17:数据贯穿AI垂类模型训练的始终14 图表18:模型性能与训练数据量、模型参数规模、训练计算量呈正相关关系14 图表19:BloombergGPT金融领域数据集共包含3630亿个token15 图表20:BloombergGPT在金融语料上的bitsperbyte均好于其他模型15 图表21:拓尔思三大数据资产平台拥有千亿级优质数据积累15 图表22:拓天·M媒体大模型的行业基础16 图表23:拓天·F金融大模型的行业基础16 图表24:医疗MedGPT参数和训练数据规模庞大16 图表25:MedGPT将不断提升病种覆盖率16 图表26:MedGPT与三甲主治医师医学一致性达到96%17 图表27:华为盘古大模型3.0重塑千行百业17 图表28:盘古药物分子大模型18 图表29:2020-2027年中国AI基础数据服务市场规模18 图表30:2020-2027年中国数据治理与面向AI的数据治理市场规模18 图表31:数据要素市场体系架构19 图表32:高质量产业大数据大模型联盟成立20 图表33:南海区大数据人工智能产业联盟成立20 图表34:上海数据交易所上线语料库,助力垂类模型训练20 图表35:推荐标的21 图表36:中科江南行业电子化应用平台23 图表37:航天宏图扎实推进全产业布局24 图表38:浩瀚深度可全面实现互联网流量及数据的前端采集处理和后端智能化应用25 图表39:金山办公产品结构25 图表40:深桑达聚焦四项主责主业26 图表41:蓝光存储具备多重优势27 图表42:易数工厂产品超市27 图表43:星环科技定位于数字化基础设施的底层和中间层28 图表44:ArgoDB数据库和KunDB数据库通过信通院“可信数据库”评测28 图表45:人大金仓数据库积极构建信创产业生态29 图表46:永信至诚产品服务体系生态链条30 图表47:数字风洞打造数据安全测试评估标准平台30 图表48:英方软件产品系列面向灾备和大数据两大应用场景31 1.数据要素市场是数字经济发展的核心引擎 1.1数据成为生产要素,成为数字经济时代的“石油” 数据要素作为较新的经济学概念,准确清晰地理解和定义数据要素市场相关概念是探索和培育数据要素市场模式和方向的重要前提,根据国家工业信息安全发展研究中心报告,我们给出以下对数据、数据资源和数据资产的定义: 1)数据:是指所有能够输入计算机程序处理、反映一定事实、具有一定意义的符号介质的总称。 2)数据资源:是指按一定规则排列组合的物理符号集合,用于承载或记录信息,这些信息可以是数字、文字、图像,也可以是计算机代码的集合。 3)数据资产:本质上是产权的概念,是指个人或企业拥有或控制的、以物理或电子方式记录的能够为个人或企业带来经济利益的数据资源。 数据已成为新型生产要素,具有劳动工具和劳动对象的双重属性。生产要素是指进行社会生产经营活动所必需的资源和环境条件,随着经济的发展,生产要素的具体形态和主次序列不断变化,传统的生产要素主要包括土地、资本、技术和劳动力,在5G、物联网、云计算、大数据、区块链和人工智能等技术的共同作用下,数据对生产的贡献日益突出。作为新型生产要素,数据具有劳动工具和劳动对象的双重属性,作为劳动对象,数据通过采集、加工、存储、流通和分析等环节具有价值和使用价值,作为劳动工具,数据通过融合应用能够提高生产效率,推动生产力的发展。数据要素市场的目标是实现数据要素的市场化配置,将数据要素从尚未完全由市场配置转向由市场配置的动态过程,其目的是建立以市场为基础的调配机制,实现数据的流动价值或在流动中产生价值。 图表1:数据成为新型生产要素且具有劳动工具和劳动对象双重属性 来源:国金证券研究所 数据要素主要通过业务贯通、数智决策和流通赋能三条途径实现自身价值。首先,数据投入生产的一次价值体现在支撑企业和政府的业务系统运转,实现业务间的贯通,为释放数据要素的初级价值,政府和企业的主要任务是推进业务的数字化和各类业务信息系统的建设。其次,数据要素二次价值释放体现在通过加工、分析、建模等过程,揭示出更深层次的关系和规律,从而使生产、经营、服务和治理等环节的决策更加智慧、智能和精准,该过程对企业的数据挖掘和分析能力提出了更高的要求。最后,数据要素的三次价值释放体现在将数据流通到更需要它的地方,让不同来源的优质数据在新的业务需求和场景中汇聚和融合,实现双赢和多赢的价值利用。 图表2:数据要素通过业务贯通、数智决策和流通赋能三条途径实现价值释放 来源:中国信息通信研究院,国金证券研究所 从产业链的角度出发,我们将数据要素市场归结为数据采集、存储、加工、流通、分析和生态保障六大模块。数据采集环节关注确保数据采集的准确性和全面性。数据存储环节关注确保数据存储的安全性和实时调用的可行性。数据加工环节关注确保数据加工的精度和准确性。数据流通环节是数据要素市场的核心环节,关注在保障所有者权利的前提下进行合理合规的数据流通。数据分析环节关注深度分析和挖掘数据的价值和潜力。生态保障环节包括数据资产评估、登记结算、交易撮合、争议仲裁以及跨境流动监管等,旨在为数据要素市场各主体提供有效的保障,并构建一个良好的市场生态。 图表3:数据要素产业链六大模块 来源:国家工业信息安全发展研究中心,中国信息通信研究院,国金证券研究所 数据要素产业图谱清晰,国内企业集中度较高。虽然数据要素作为一个较新的经济学概念,但与数据相关的产业已经在国内经过了较长时间的发展,例如在数据存储方面信创之风已经提前带领国内数据库反弹复苏,以华为、阿里和腾讯为首的云数据库,以及以达梦、南大通用为首的传统数据库,还有OceanBase、GoldnDB和TiDB等国内分布式交易型数据库快速发展。除此之外,AI大模型的快速崛起也大幅增加了对模型训练的需求,数据加工中的数据清洗、标注和审核等工作需求激增,百度EasyData、海康NLP等技术获得关注。数据流通环节作为二级市场的关键环节,在数据确权和隐私计算方面的国内企业如拓尔思、易华录等公司获得市场资金大幅支持。生态保障的主要参与者是政府机构和组织,例如北京数据资产评估中心、大数据交易所以及国家数据局等监管机构等。 图表4:数据要素产业图谱 来源:国家工业信息安全发展研究中心,国金证券研究所 我国数据要素市场规模持续扩张,数据要素成为数字经济发展新引擎。数字化的本质是在信息化的基础上,对系统产生的数据要素,利用大数据、AI、区块链等数字技术,进行流程改造、数据决策、商业模式重构等全新的价值开发,核心目的是实现商业增量。国家工业信息安全发展研究中心数据显示,我国2021年数据要素市场规模达815亿元,预计“十 四五”发展期间年均增长率达25%,有望在2025年达到1,990亿元的市场规模。同时可以发现,2022年我国数据要素市场中数据存储、分析和加工行业位列前三,随着人工智能和互联网技术的进步,数据量的增大对