您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[长城证券]:数据要素专题:政策顶层建设持续完善,国内大模型竞赛驱动数据作为AI语料加速发展 - 发现报告
当前位置:首页/行业研究/报告详情/

数据要素专题:政策顶层建设持续完善,国内大模型竞赛驱动数据作为AI语料加速发展

信息技术2024-03-26侯宾、姚久花长城证券F***
数据要素专题:政策顶层建设持续完善,国内大模型竞赛驱动数据作为AI语料加速发展

政策端:数据要素顶层建设持续完善。1)数据跨境流动是信息、知识、要素、商品的全球流动、传播与共享,数据跨境流动正成为驱动全球经济增长的新动能;2)政策完善数据跨境流动,充分释放数据要素价值。3月22日,国家互联网信息办公室公布《促进和规范数据跨境流动规定》,有利于促进数据依法有序自由流动,激发数据要素价值,扩大高水平对外开放,《规定》对数据出境安全评估、个人信息出境标准合同、个人信息保护认证等数据出境制度作出优化调整。3)《银行业数据资产估值指南》正式发布,数据要素X金融率先跑出。《指南》为实现商业银行数据资产价值全面量化、提升数据资产精细化管理水平及各类管理决策提供参考,为全面构建我国金融领域数据资产估值体系提供了有益参考,数据要素X金融领域商业模式有望率先成熟落地 。 产业端:数据要素可作为AI语料催化产业加速发展。近日,我国国内大模型上下文长文本能力争先取得较大突破,其中:1)Kimi智能助手启动200万字无损上下文内测,可支持iOS应用、Android应用、Kimi智能助手(小程序)、Web(kimi.ai)等多端平台;2)阶跃星辰目前可提供Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用;3)3月22日,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能。我们认为,随着Kimi等国产上下文长文本大模型快速破圈,大语言模型的涌现能力更是让AIGC应用体验得到大幅提升,有望加速催动国内大模型厂商进行产品迭代发布;在此环境下,AI语料一方面在前期大模型算力训练过程中需要海量数据;同时,AI应用体验的提升有望加速与国内应用侧产品推陈出新,进一步催化数据语料的需求,数据要素可作为AI语料催化产业加速发展。 市场回顾:本周(2024年3月18日-2024年3月22日,下同)通信(申万)指数上涨1.77%;沪深300指数下跌0.70%,行业跑赢大盘2.47pp。 建议关注的标的:国资云:中国移动、中国电信、中国联通、深桑达A;数据运营治理:太极股份、云赛智联;数据加工:海天瑞声、海量数据;数据安全:启明星辰、深信服、国投智能;参股数交所:易华录、浙数文化、安恒信息、广电运通、零点有数、东方国信、吉视传媒;IDC:数据港、奥飞数据、光环新网、宝信软件;温控:英维克、佳力图、依米康、高澜股份、曙光数创、申菱环境、飞荣达;线缆:新亚电子、金信诺;代工:共进股份、菲菱科思、工业富联;服务器:浪潮信息、中科曙光、中兴通讯、紫光股份。 风险提示:市场竞争加剧风险;关键技术突破不及预期风险;下游需求不及预期风险;原材料价格波动风险。 1、本周通信行业表现 本周(2024年3月18日-2024年3月22日,下同)通信(申万)指数上涨1.77%; 沪深300指数下跌0.70%,行业跑赢大盘2.47pp。 图表1:本周通信行业涨跌幅前5个股 图表2:本周通信行业涨跌幅后5个股 在TMT各子板块:电子、通信、传媒以及计算机中,通信周涨幅居第三位。 图表3:TMT各子行业涨跌幅对比(截至2024年3月22日) 通信板块最新估值(市盈率为历史TTM_整体法,并剔除负值)为20.29倍,位于TMT各行业第四位。 图表4:TMT各子行业历史市盈率比较(各年份数据取自当年12月31日) 2、政策端:数据要素顶层建设持续完善 2.1政策完善数据跨境流动,充分释放数据要素价值 2.1.1数据跨境流动成为驱动全球经济增长新动能 数据跨境流动是信息、知识、要素、商品的全球流动、传播与共享,数据跨境流动正在逐步超过贸易、投资全球化,成为驱动全球经济增长的新动能。数据跨境流动已经成为全球资金、信息、技术、人才、货物等资源要素交换、共享的基础。 全球数据流动对全球经济增长的贡献显著增强。根据麦肯锡的研究报告称,早在2014年,数据流动直接创造的价值就高达2.8万亿美元,预计到2025年,数据跨境流动对全球GDP的贡献价值将达到11万亿美元,数据跨境流动的重要性愈发凸显。此外,数据跨境流动将创造更加高效的全球市场,进一步降低全球化的参与门槛。 图表5:我国2022年数据交易市场规模占亚洲及全球比重 根据《中国数据交易市场研究分析报告(2023年)》称,2022年中国数据交易市场规模占全球比重为13.4%,占亚洲比重为66.5%,我国数据交易市场仍有较大发展空间,数据跨境流转对我国发展全球数据交易具备重大影响。 跨境数据流动支撑、拓展了数字广告、数字营销、数字音乐、数字视频、游戏、动漫、软件研发、远程医疗、在线教育等数字服务贸易发展,5G、人工智能、大数据等数字技术的应用提高了服务的可贸易性。 图表6:数字贸易分类 2.1.2跨境数据贸易催生新技术内核要求 数据因为无形、开放的特征,难以用以前的规则(如原产地规则)来适用于跨境数据流动,所以在跨境数据流转中,数字贸易高度依赖于数字技术、数据流动、网络和数字平台;如在数字技术领域,催生出源代码保护、加密ICT产品、人工智能、金融科技等新兴议题;在数据流动方面,催生出数据跨境流动、个人隐私保护、计算设施位置等议题;在信息网络方面,催生出互联网接入、网络安全等议题;在数字平台方面,催生出平台责任、数字平台竞争等议题。 图表7:传统经济贸易VS数字贸易 2.1.3政策完善数据跨境流动,充分释放数据要素价值 2024年3月22日,国家互联网信息办公室公布《促进和规范数据跨境流动规定》(以下简称《规定》),自公布之日起施行。该规定于2023年11月28日国家互联网信息办公室2023年第26次室务会议审议通过。 为了促进数据依法有序自由流动,激发数据要素价值,扩大高水平对外开放,《规定》对数据出境安全评估、个人信息出境标准合同、个人信息保护认证等数据出境制度作出优化调整。 图表8:《促进和规范数据跨境流动规定》核心内容 深圳数据交易所:率先探索跨境数据交易,建设成为全国性数据交易平台。 在深圳市发改委指导下,深圳数据交易所于2021年12月1日,在河套深港科技创新合作区正式注册成立;在2022年11月15日正式揭牌,以建设全国性数据交易平台为目标,开发全流程线上数据交易平台。 三个“率先”:1)探索跨境数据交易流通机制;2)落地国内首单场内跨境数据交易;3)引入“信用+合规”评估体系,探索所商分离运营新模式。 截至2023年3月31日,深圳数据交易所已完成登记备案的数据交易总计625笔,其中跨境交易16笔,覆盖金融科技、数字营销、公共服务等106类应用场景,交易规模全国第一。 我们认为,《促进和规范数据跨境流动规定》的出台是为了在保障国家数据安全的前提下,便利数据跨境流动,降低企业合规成本,充分释放数据要素价值,扩大高水平对外开放,为数字经济高质量发展提供法律保障。 2.2《银行业数据资产估值指南》正式发布,数据要素X金融率先跑出 根据深圳数据交易所称,近日,中国银行业协会发布《银行业数据资产估值指南》(以下简称《指南》)团体标准。 《指南》由中国光大银行牵头,中国工商银行、中国农业银行、招商银行、上海浦东发展银行等12家单位共同参与研究制定,旨在解决商业银行数据资产价值衡量难等问题,为实现商业银行数据资产价值全面量化、提升数据资产精细化管理水平及各类管理决策提供参考,推动数据要素市场科学有序发展。 估值指标体系的设计策略采纳了数据资产基础评价方法中对数据资产价值影响因素的综合性考量,将数据质量、数据应用、数据安全等指标纳入通过层次分析法定量转化为价值调整系数,形成由成本价值指标、经济价值指标、市场价值指标、内在价值指标组成的估值指标体系。 图表9:数据资产估值指标设计策略示意图 数据资产估值指标体系的内容主要包括以下四大类指标: 成本价值:指在数据资产全生命周期过程中,数据的规划、获取、存储、加工、维护、应用和管理数据所需要支出的成本; 经济价值:指直接面向业务应用,量化数据资产带来的业务收益、风险收益以及成本收益,衡量数据对业务的赋能效果; 市场价值:指数据资产在主要流通交易市场中的价值,在有可参考、已成交案例的前提下,依据市场活跃程度、市场参与者的数量及供需关系等来衡量; 数据内在价值:指数据资产自身所蕴含的潜在价值以及其能够使用后所产生的价值,包括数据规模、数据质量、数据安全、数据应用等 我们认为,该《指南》构建了全面而实用的数据资产估值框架,涵盖数据资产的识别、评估、管理到价值提升等关键环节,为全面构建我国金融领域数据资产估值体系提供了有益参考,有助于完善数据要素资源体系,并带动行业数据资产估值走向规范化、市场化,数据要素X金融领域商业模式有望率先成熟落地。 3.产业端:数据要素可作为AI语料催化产业加速发展 3.1Kimi智能助手启动200万字无损上下文内测 3月18日,据Moonshot AI官方公众号宣布Kimi智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到200万字,可支持iOS应用、Android应用、Kimi智能助手(小程序)、Web(kimi.ai)等多端平台。 此前,Kimi智能助手于2023年10月初次亮相时,凭借约20万汉字的无损上下文能力,帮助用户解锁了很多新的使用场景,包括专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解API开发文档等。 图表10:kimi智能助手支持200万字上下文 Kimi具体超长无损上下文的使用场景示例如下: 用户上传几十万字的经典德州扑克长篇教程后,让Kimi扮演德扑专家为自己提供出牌策略的指导。 图表11:kimi模拟德州扑克出牌策略 上传英伟达过去几年的完整财报,让Kimi成为英伟达财务研究专家,帮用户分析总结英伟达历史上的重要发展节点。 图表12:分析英伟达财报 3.2阶跃星辰:万亿参数语言大模型内测中 阶跃星辰目前可提供Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用 公司主要从以下四方面持续深耕产品能力: 算力:通过自建机房+租用算力,积极进行算力储备。 系统:我们的团队实践过单集群万卡以上的系统建设与管理。训练千亿模型的MFU(有效算力输出)达57%。 数据:我们的数据团队核心骨干来自必应搜索引擎,曾支持全球100多种语言,为200多个国家和地区提供服务。对全球互联网高质量语料的分布有深入了解。 并建立起强大的数据处理和知识图谱流水线。 算法:团队不仅能驾驭各种架构,比如万亿参数的MoE架构,并且对大模型的认知以及发展路线有深刻洞察。 3.3阿里通义千问上新,可一键解析超万页文档 3月14日,根据通义千问官方微信公众号,通义千问推出免费的文档解析功能,可解析各种格式的网页、文档、论文、图书。 其中,针对单个文档,通义千问能够处理超万页的极长资料,换算成中文篇幅约一千万字;针对多个文档,通义千问可一键速读100份资料,实现跨文档的摘要、分析和内容创作;通义千问还能解析在线网页,打开通义千问官网和APP就能直接体验。 3月22日,根据财经网,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能。 其中金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。 图表13:阿里通义千问1000万字长文档处理能力 3.4数据要素可作为AI语料催化产业加速发展 我们认为,随着Kimi等国产上下文长文本大模型快速破圈,大语言模型的涌现能力更是让AIGC应用体验得到大幅提升,有望加速催动国内大模型厂商进行产品迭代发布;在此环境下,AI语料一方面在前期大模型算力训练过程中需要海量数据;同时,AI应