拓尔思数据要素白皮书 拓尔思信息技术股份有限公司第0页 股票代码:300229 拓尔思数据要素白皮书 拓尔思数字经济研究院 2023年3月 目录 一、我国数据要素市场发展概述3 1.数据量井喷式增长,数据要素市场规模将破千亿4 2.数据交易产业链形成,数据交易需求旺盛,盈利模式多样化5 3.我国数据交易机构建设迎来新浪潮,数据流通进入2.0时代6 二、拓尔思数据要素业务目标7 三、拓尔思数据要素业务体系7 (一)“1+1=N”的数据要素商业模式7 (二)数据要素治理体系8 (三)数据要素业务总体架构10 (四)数据要素供给业务视图11 (五)数据要素业务运营架构12 四、拓尔思数据要素业务介绍15 (一)云和数据服务业务发展之路15 (二)公司数据资产现状17 1.数据资产规模18 2.大数据底座产品清单23 3.数据安全产品清单25 4.云和数据服务产品清单25 (三)大数据底座和人工智能产品介绍27 1.网络大数据采集27 2.数据资源汇聚30 3.大数据管理33 4.数据中台35 5.数据质量管理38 6.人工智能技术平台43 (四)数据安全产品介绍45 1.网络安全市场45 2.产品服务模式47 3.市场规模测算49 (五)云和数据产品介绍49 1.政府49 2.金融65 3.媒体69 4.专利71 5.舆情75 (六)云和数据服务收入规模79 (七)小结80 1.拓尔思数据要素业务发展空间大,未来可期80 2.拓尔思有望成为国内另类数据服务龙头,加速数据要素价值释放 ......................................................................................................................81 五、拓尔思数据要素发展方向83 (一)强化数据要素底座基础83 (二)加强数据治理能力建设83 (三)提升数据要素变现能力84 六、拓尔思数据要素业务保障84 (一)组织保障84 (二)资金保障85 (三)人才保障85 一、我国数据要素市场发展概述 数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素已成为驱动中国式现代化的重要引擎。当前,经济全球化已进入一个由数据要素驱动的新时代。 2020年4月,中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》中正式把数据作为生产要素单独列出,并提出了促进数据要素市场化配置的改革方向。后面,又陆续在《国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知》 《中共中央国务院关于加快建设全国统一大市场的意见》《“十四五”数字经济发展规划》《国务院办公厅关于印发全国一体化政务大数据体系建设指南的通知》等政策文件以及中央深改委第二十六次会议上,进一步提出要促进数据要素资源在更大范围内畅通流动,加快构建数据基础制度体系,推动我国数据要素市场健康有序发展,加快构建以数据为关键要素的数字经济。2023年伊始,数据要素市场活跃。2022年底,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)对外发布,系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要素市场发展。各地正积极推进数据交易场所建设,优化交易环境,让选购数据产品像逛超市一样方便快捷。 图1:我国数据要素市场培育的顶层机制建设 1.数据量井喷式增长,数据要素市场规模将破千亿 数据为数字经济的发展提供了不可或缺的动力支持,近年来全球数据量呈井喷式发展。根据国际数据公司(IDC)预测,2025年全球数据量将达到163ZB。随着数据量指数级增长,数据分析算法和技术迭代更新,数据创新应用和产业优化升级,数据对社会变革的影响将更加深远。与此同时,随着数据要素相关政策文件推动数据要素市场深化改革,我国数据要素市场规模进入高速增长阶段。根据国家工业信息安全发展研究中心测算,2025年将突破1749亿元,“十四五”期间我国数据要素市场规模复合增速将达到26.3%,整体上进入高速发展阶段。 图2:我国数据要素市场规模及预测 2.数据交易产业链形成,数据交易需求旺盛,盈利模式多样化数据流通发生在数据交易前、交易中、交易后和数据出入境等 环节,目前已形成产业链生态雏形。在国家政策的推动鼓励下,数据产品交易从概念逐步落地,部分省市和相关企业在数据定价、交易标准等方面进行了有益探索。随着数据产品交易类型的日益丰富、交易环境的不断优化、交易规模的持续扩大,我国数据产品交易变现能力显著提高。根据国家工业信息安全发展研究中心等机构联合发布的《中国数据要素市场发展报告》,2021年数据要素对我国GDP增长的贡献率和贡献度分别为14.7%和0.83个百分点,呈现持续上升状态。市场空间方面,2021年我国数据要素市场规模达到815亿元,2022年市场规模接近千亿元,并且在“十四五”期间有望保持25%的复合增速。目前数据交易所的盈利模式主要有三种:佣金模式、会员制模式、增值模式,但盈利模式多样不代表其盈利 能力强大,数据交易所作为“准公共服务机构”,主要目标是赋能市场,推动经济发展。 3.我国数据交易机构建设迎来新浪潮,数据流通进入2.0时代当前,数据要素市场发展势头强劲。随着数据要素相关政策的推 动、数据安全和个人隐私法规的完善及数据流通技术的快速发展,数据产品交易迎来2.0时代。截至2022年底,全国数据交易所已近50家。除建立数据交易所外,各省市纷纷成立由各级政府主导的大数据集团,进一步推动数字化转型进程和数字经济发展。国家未来的目标是培育全国统一数据大市场,包括国家级数据交易所、区域数据交易中心、行业数据交易平台、数据商、数据供需方、第三方服务机构等,通过完整的生态推动数据产业蓬勃发展。 数据来源:拓尔思根据互联网公开数据整理 图3:我国数据要交易所建设历程 二、拓尔思数据要素业务目标 拓尔思以完善自身数据要素资源体系、壮大数据要素应用体系及建立数据要素安全体系为发展目标,全面布局数据要素市场。 一是完善拓尔思数据要素资源体系,充分释放数据要素价值。强化拓尔思数据资源采集汇聚能力,推动数据高质量汇聚。提升公司在数据采集、标注、存储、传输、管理、应用等全生命周期管理的规范性,健全公司数据资源管理机制,优化数据质量评估方案,积极应用先进质量管理工具,形成数据质量管理闭环,从而进一步促进数据要素价值提升。 二是壮大拓尔思数据要素应用体系,深化数据驱动的行业应用。加强拓尔思在政府、金融、媒体、专利、产业大数据、开源情报等重点行业的数据应用模式探索,深化数据驱动的全流程应用,提升基于数据分析的服务并复制推广。 三是强化拓尔思数据要素安全体系,提升数据支撑和安全保障能力建设。加强公司数据安全管理体系建设,进一步明确安全主体责任和防护要求。围绕数据全生命周期的安全保护要求,强化数据安全监测、加密传输、访问控制、数据脱敏等环节的技术保障,稳步建立数据风险防控体系和预警机制。 三、拓尔思数据要素业务体系 (一)“1+1=N”的数据要素商业模式 拓尔思在经营过程中形成了一套1+1=N的数据要素商业模式。“1+1”是指一个大数据底座和一个人工智能技术平台。 “N”是指行业SaaS服务集群,未来可实现N个云服务产品的拓展。 “1+1=N”的商业模式主要依托拓尔思自建的大数据中心,基于自研的大数据底座和人工智能技术平台,面向优势行业的业务应用,根据不同场景封装产品,基于公司成熟营销体系迅速推向市场。这种模式充分体现了拓尔思的数据要素具有可复制性强、迭代速度快、复用价值高以及无限供给等特点,实现了统一数据在产品化方面的裂变增长。 图4:拓尔思数据要素商业模式:1+1=N (二)数据要素治理体系 数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从,这是一个非常复杂的系统工程。 拓尔思公司从2010年开始自建大数据中心,经过十多年的实践积累,建立了一套符合公司实际的数据治理体系。该体系从组织、制度、流程、标准、质控、执行、IT、数据产品等方面做出了明确规定,确保关键数据资产有清晰的业务管理责任,作业人员有规范的流程和指导,跨公司跨部门协作时有顺畅的工作机制,治理过程有充足的人才、组织、预算保障,数据产品创新有稳定的决策和优先流程。综合上述因素,最终建立有效的数据治理环境,数据的质量和安全得到保障,数据的价值才能真正发挥出来。 图5:拓尔思数据要素治理框架 拓尔思在长期的业务经营过程中,形成了一套数据与知识融合的数据要素治理体系。 图6:拓尔思数据要素治理体系 (三)数据要素业务总体架构 在规模持续高速增长的数据要素市场中,拓尔思拥有完整的大数据基础建设产品线、丰富的行业SaaS服务集群和可靠的安全一体化平台。拓尔思采集的数据均为公开的网络数据,基于自研的海贝大数据管理系统进行统一存储,通过TRS人工智能技术平台对源数据自动分类、自动抽取、自动标注、自动查重、质量校核等处理,使之成为数据要素。采用不同行业不同场景的业务模型、算法等,将数据要素进行不同维度的融合,包括数据级融合、行业级融合、场景级融合、决策级融合等,形成不同类型的数据产品,实现数据资源向数据资产转变。数据产品以SAAS、DAAS、KAAS、MAAS等不同方式,向政府、金融、媒体、专利、能源、企业等行业用户提供细分场景的在线服务,最终实现数据要素的价格化及商品化。拓尔思建立了一套数据安全管 理、数据运营及技术运维、数据要素生态管理等完整体系,为公司数据要素市场化过程提供保障。 图7:拓尔思数据要素业务总体框架 (四)数据要素供给业务视图 拓尔思采集的公开数据属于另类数据。目前,业界对另类数据暂没有统一定义。在当前数字时代的语境下,另类数据不同于传统的交易所、公司公告等披露的金融数据,它是由各类信息终端、平台或者系统产生的数据,这些数据能够用来帮助进行投资决策。之所以被称作“另类数据”,是因为当下数据的来源、形式和作用均有别于传统数据,让我们有了解事物外界变化的不同思维方式,所以称为“另类”。 从数据源来看,另类数据的数据源种类主要可以分为以下三大类: 1.个体相关数据:由个人在社会行为中所产生的相关数据,如社交媒体信息、产品评价、搜索记录、APP使用、通话信息等; 2.商业过程数据:由商业行为中的交互所产生的相关数据,如支付信息、产品销售数据、人流量数据、Web数据、数据要素等; 3.传感器数据:由卫星、5G基站和传感器等其他设备所收集到的数据,例如车辆轨迹数据、农业种植数据、石油储量数据、生产相关数据等。 拓尔思主要采集Web数据、数据要素、社交媒体信息、新闻报道等,并将这些另类数据进行数据要素化处理,与业务场景进行紧密融合后,形成不同类型的数据产品,应用广泛且在不同行业中发挥着重要作用。拓尔思数据要素供给可满足政务、金融、媒体、专利、舆情等业务场景,具体业务视图如下所示: 图8:拓尔思数据要素供给业务视图 (五)数据要素业务运营架构 拓尔思数据要素业务运营架构如下图所示: 图9:拓尔思数据要素业务运营架构 整个运营架构涉及运营依据、运营监管、产品运维、以及资源层、业务层、服务层等模块。 1.运营依据是数据要素运营的导向。运营依据是数据要素运营的导向,数据要素运营要以国家战略为指引,遵从法律法规的约束,符合地方政策、行业准则和标准规范的要求,并依此来开展数据要素运营活动,确保整个数据要素运营活动的合法合规,安全守正。 2.运营监管是保障。通过对数据要素运营过程中的核心能力要素监管,包括数据监管、模型监管、平台监管、流通监管等,确保数据要素运营和服务等活动开展的风险可控和数据产品的健康良性发展。