No.202308 数据要素白皮书 (2023年) 中国信息通信研究院2023年9月 版权声明 本白皮书版权属于中国信息通信研究院,并受法律保 护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》(下称“数据二十条”),这是我国首部从生产要素高度系统部署数据要素价值释放的国家级专项政策文件。“数据二十条”确立了数据基础制度体系的“四梁八柱”,在数据要素发展进程中具有重大意义。 随着“数据二十条”等一系列政策措施相继出台,数据要素市场培育进展加速,畅通数据资源大循环的方向愈加明确。尤其是在人工智能快速迭代、大模型与大数据相得益彰的发展态势中,数据要素战略地位进一步凸显。各地方、各部门、各大企业纷纷加快数据要素领域布局,从体制机制、市场流通、产品研发、标准规范等多层次、多角度开展落地方案的深度探索,涌现出数据要素价值释放新热潮。 本白皮书在《数据要素白皮书(2022年)》的基础上,进一步探讨数据要素理论认识,聚焦过去一年来数据要素探索过程中不断涌现的新模式、新业态、新热点,重点关注资源、主体、市场、技术四大方面的发展:资源方面,公共数据授权运营、企业数据资产入表、个人数据权益保护是各类数据发展的新趋势和着力点;主体方面,企业和政府逐步提升能力,双向发力推进数据要素可持续探索;市场方面,场外场内各有突破,相互促进、共同发展,推动数据资源的最优配置;技术方面,基于业务需求支撑数据要素发展的技术体系正加速创新。期望本白皮书的研究成果能为社会各界进一步参与数据要素实践探索提供有价值的参考。 目录 一、数据要素再认识1 (一)国家战略全方位布局数据要素发展1 (二)人工智能发展对数据供给提出更高要求3 (三)数据要素概念聚焦于数据价值释放5 二、资源:分类推进数据要素探索已成为共识7 (一)不同类别数据资源面临不同关键问题7 (二)授权运营促进公共数据供给提质增效11 (三)会计入表推动企业数据价值“显性化”15 (四)权益保护仍是个人数据开发利用主线18 三、主体:企业政府双向发力推进可持续探索21 (一)企业侧:数据管理与应用能力是前提21 (二)政府侧:建立公平高效的机制是关键26 四、市场:场内外结合推动数据资源最优配置29 (一)数据流通存在多层次多样化形态30 (二)场外交易活跃,场内交易多点突破33 (三)多措并举破除数据流通障碍35 五、技术:基于业务需求加速创新与体系重构37 (一)数据技术随业务要求不断演进37 (二)数据要素时代新技术不断涌现38 (三)数据要素技术体系重构加速42 六、趋势与展望42 参考文献46 图目录 图1数据基础制度体系2 图2公共数据、企业数据、个人数据的复杂关系8 图3北京公共数据专区运营模式13 图4数据要素分级授权体系示例20 图5DataOps:敏捷协同的一体化管理24 图6地方数据相关条例出台情况28 图7数据要素流通的多种形态31 图8数据要素流通技术流程图39 图9数据要素重构技术体系42 一、数据要素再认识 数据的爆发式增长和规模化应用不断催生新产业、新业态,对生产力和生产关系的发展和变革具有重要影响。将数据增列为生产要素意味着对数据要素价值释放提出更高目标,需要通过深度研究、广泛实践,反复认知和领会数据要素战略布局、时代背景与理论内涵,不断推进数据要素发展,有力支撑数字中国建设。 (一)国家战略全方位布局数据要素发展 我国数据要素政策进入体系化构建阶段。自2014年大数据首次写入政府工作报告以来,在关于数据的系列政策布局推动下,数据与实体经济融合程度不断加深,数据技术、数据产业、数据应用、数据安全等方面都取得长足发展。2019年,十九届四中全会首次将数据增列为生产要素,关于数据资源整合共享、开发利用、安全治理、市场化配置等方面的数据要素体系化顶层设计正式启动。四年来,《关于构建更加完善的数据要素市场化配置体制机制的意见》《“十四五”数字经济发展规划》《关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》等文件相继出台,数据要素政策体系架构初步形成,擘画出数据资源大循环、数据要素价值充分实现、全体人民共享数字经济发展红利的宏伟蓝图。 “数据二十条”为推动数据要素发展筑牢政策基础。习近平总书记指出,数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实 体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快 构建数据基础制度体系。2022年12月,“数据二十条”的出台明确了数据基础制度体系基本架构(如图1),提出建立保障权益、合规使用的数据产权制度,建立合规高效、场内外结合的数据要素流通和交易制度,建立体现效率、促进公平的数据要素收益分配制度,建立安全可控、弹性包容的数据要素治理制度。以“数据二十条”为指导,各地各部门将制定数据要素相关细则规定,围绕“数据二十条”不断丰富完善数据要素各方面制度体系和配套政策,打造“1+N”数据基础制度体系。 图1数据基础制度体系 来源:国家发展和改革委员会 数字中国建设引领数据要素价值释放方向。建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支 撑。2023年2月,《数字中国建设整体布局规划》指出,畅通数据资源大循环是数字中国建设的两大基础之一,要构建国家数据管理体制机制,健全各级数据统筹管理机构,推动公共数据汇聚利用,释放商业数据价值潜能。规划提出的“五位一体”总体布局为数据要素价值释放指引了方向,数字技术与经济、政治、文化、社会、生态文明建设的深度融合将带动数据要素在各场景发挥独特作用,从而充分激活数据要素内在价值,全面赋能经济社会发展。 数据要素统筹管理、协调发展的体制机制进一步完善。2022年7月,国务院批准建立由国家发展改革委牵头,中央网信办、工业和信息化部等20个部委组成的数字经济发展部际联席会议制度,强化国家层面数字经济战略实施的统筹协调。2023年3月,《党和国家机构改革方案》提出组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等工作。国家数据局的组建有利于破除“九龙治水”的数据治理环境,平衡数据要素安全和发展的辩证关系,从而进一步推动数据要素的开发利用,推进多层次数据要素市场建设,促进数据要素、数字经济与实体经济的深度融合。 (二)人工智能发展对数据供给提出更高要求 2023年,以ChatGPT等为代表的AIGC技术应用火遍全球,大模型技术取得的突破使人工智能技术发生了深刻的变革,而这个突破离不开高质量数据的发展。可以说,数据已成为未来人工智能竞争的关键要素,人工智能正在从“以模型为中心”加速向“以数据为中心” 转变。 人工智能发展驱动数据要素市场需求爆发。伴随着大模型时代的到来,通用人工智能(AGI)产业正迎来爆发期,更加需要大规模、高质量、多样化的数据集提升模型效果和泛化能力。大模型训练使用的数据集规模持续增长,例如根据公开资料显示,2018年GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB,而2021年Gopher数据集已达10550GB,2023年GPT-4的数据量更是GPT-3的数十倍以上。 当前,主流大模型预训练数据主要来源于公开数据集、合作数据分享、大规模网络数据以及通过数据众包方式获取的数据。然而,我国人工智能领域高质量数据集缺乏、数据供给的产业生态不健全、企业数据资源获取成本高等问题依然严峻。一是国内人工智能领域高质量数据集缺乏。虽然我国已有部分中文开源数据集,但在数量上远远少于国际英文公开数据集,在数据质量方面参差不齐、部分内容十分陈旧。由于高质量数据集的缺乏,部分国产大模型采用“英文数据集 +翻译软件”的方式生成中文语料库,导致训练结果出现巨大的文化冲突。二是人工智能领域数据供给的产业生态不健全。由于国内数据要素市场发展尚处于初级阶段,数据流通规则和数据供需对接机制未有效建立,目前国内尚未形成高效完整的人工智能数据产品供应链。三是企业数据资源获取成本高。在模型训练过程中,通常80%的工作是数据构建和准备高质量数据,人工智能企业需要花费大量的人力和物力进行数据集采集、清洗和标注,成本极高。同时,人工智能企业 通常难以获取行业高质量数据集,常陷入“寻数无门”的困境。 对此,各类主体通过数据要素市场积极应对上述问题。部分地方和行业推出一系列举措加强高质量数据供给,为大模型成长提供充足“养料”。例如,2023年5月印发的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》提出,“建立多模态公共数据集,打造高质量中文语料数据”。2023年8月,近50家单位成立“开放算料联盟”,围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注等相关标准制定,协助数据交易所增加大模型相关的新品类和新专区。 此外,合成数据也成为模型训练中的重要类型,为数据要素市场带来了新需求。据专家预测,模型训练中必不可少的语言数据将于2030-2040年耗尽,其中能训练出更好性能的高质量语言数据将于 2026年耗尽,而视觉数据恐将于2030-2060年耗尽。未来,合成数据将成为模型训练的关键数据。根据Gartner的预测,2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据都将由人工智能合成。这是否会对数据要素市场带来结构性的变化,还有待未来观察。 (三)数据要素概念聚焦于数据价值释放 数据要素概念的内核是提高生产效率与资源配置效率。生产要素是对某一时期经济发展中所需重要资源的科学抽象,是对生产过程中所投入成本的高度凝练。作为一种理论视角下的概念,从外延角度看,数据要素固然包括根据特定生产需求汇聚、整理、加工而成的计算机 数据及其衍生形态1,但数据要素这一概念不只是对各行业各领域各类数据的指代,更是对数据所蕴藏巨大价值的强调。数据支撑业务贯通、推动数智决策、流通对外赋能的三次价值2是挖掘、释放数据要素价值的主要手段,而激活数据要素的根本目的是将数据以多样、创新的方式投入于经济社会发展全过程,通过数据开发利用增加生产经营活动的投入产出比,促进跨领域活动过程中资源的高效流动,从而全面提高生产效率与资源配置效率。 业界对于数据要素阶段划分有诸多探讨。为推动数据要素价值释放,可将具体过程进行分解。例如,按照供应链可分解为数据供给、数据流通、数据应用、数据安全等阶段;按照数据价值增值的阶段性目标,可分解为数据资源化、数据资产化、数据资本化或产品化等阶段。每个阶段均可进一步细分,例如,不同意义层次上的数据资产概念突出了数据要素价值释放的不同需求:在经济意义上,凡能产生价值的数据资源都可以用数据资产强调,从而提升组织对数据管理、数据应用的重视程度;在会计意义上,参照我国《企业会计准则——基本准则》第二十条“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源”定义,数据资产需具备组织拥有或控制、能够产生经济利益等性质,这对数据的确权、流通提出了要求;而在资产负债表列报意义上,参照我国《企业会计准则——基本准则》第二十二条“符合资产定义和资产确认条件的项目,应当列入资产负债表;符合资产定义、但不符合资产确认 1《数据要素白皮书(2022年)》 2《数据要素白皮书(2022年)》 条件的项目,不应当列入资产负债表”要求,数据资产若要入表,还应满足“有关经济利益很可能流入企业”“成本或价值能可靠计量”两大资产确认条件。总之,类似的分解有利于数据要素政策、目标等落地,各阶段的活动职能成为实现数据生产要素价值的必要环节。 二、资源:分类推进数据要素探索已成为共识 数据资