您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:网易数据治理白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

网易数据治理白皮书

信息技术2023-03-28网易M***
AI智能总结
查看更多
网易数据治理白皮书

第'章:数据治理2.Q() +,№ 6.1某证券公司 29 29 %& 第—章:数据#)01 05 第二章:数据治理解决了什么问题03 第三章:到底什么是数据治理 3.1数据治理宏观政策05 3.2数据治理概念05 3.3网易对数据治理的定义07 12 第四章:传统数据治理面临的挑战08 第五章:网易数据治理2.Q 5.1开发与治理一体化12 5.2数据中台架构16 5.3湖内湖外同一治理20 5.4数据治理36022 5.5基于ROI的数据资产精细化管理24 5.6数据治理的持续闭环24 5.7基于DataOps开发底座27 6.2某电信运营商36 6.3某物流公司40 第—章数据#) 1.1数据分类 对于企业来说,数据的产出、应用和管理无处不在。在数字化的大浪潮下,无论是企业的管理者,还是企业的基层员工无时无刻不在和数据打交道,如何应用好数据、更好的挖掘数据价值是每个企业都面临的问题。企业使用数据的前提是了解数据,我们将常见的企业数据分为三大类:主数据、业务数据以及分析数据。如果将企业比作大树的话,那么主数据是树上的树干,业务数据是树干上的枝叶,分析数据则是长在枝头的果实。 “果实”-分析数据 分析数据用来反映企业的业绩,被用于企业的决策分析,在一个企业中,数据的真正价值在分析数据时刻得到体现,如销售收入增长、投资回报率等。 “树叶”-业务数据 业务数据描述企业的经营活动,是分析数据的基础。如产品出入库、财务应收、采购、销售等。 “树干”-主数据 主数据作为树干用来承载业务数据分析数据,它是有关业务实体的数据,为业务交易和分析提供了语境信息,如雇员、客户、产品、地点等。 主数据作为树干用来承载业务数据和分析数据,它是有关业务实体(如雇员、客户、产品、地点等)的数据,为业务交易和分析提供了语境信息,因此离了主数据的业务数据和分析数据都是没有意义的,就像叶子和果实离了树干无法独自生长。业务数据用来描述企业的经营活动,如产品出入库、财务应收、采购、销售等活动产生的数据。业务数据是分析数据的基础,分析数据来自业务数据的加工,就像叶子通过光合作用为果实制造营养物质,没有叶子就没有果实的存在。分析数据用来反映企业的业绩,被用于企业的决策分析,在一个企业中,数据的真正价值在分析数据时得到体现,高质量的分析数据就像成熟饱满的果实,能为企业带来巨大价值。因此,主数据是业务数据和分析数据的基础,业务数据为分析数据的产生提供了环境,分析数据是企业数据的价值体现。 1.2数据资产定义 对于一个企业来说,并不是所有的数据都值得去管理、去维护甚至去分析的。数据的生成、汇聚、存储、分析、共享等阶段都会因为数据管理的不当、数据治理手段的缺失,从而产生低质量的数据。低质量的数据不仅没有价值,它的存在还会导致错误的决策,如同不健康的树干会影响叶子的生长,不健康的叶子无法提供足够的营养进行果实的孕育,不健康的果实无法食用一样。 因此,在企业当中数据和资产是不等价的,中国信息通信研究院联合多家企业于2021年12月发布了《数据资产管理实践白皮书5.0》,其中将数据资产定义为“由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如文本、图像、语音、视频、网页、数据库、传感信号等结构化或非结构化数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。” 上述定义分别从数据主体、数据资源以及数据价值三方面对数据资产进行了描述。数据主体表明了数据是有主体的,可以来自政府机构、企事业单位等组织。数据资源表明了数据的存在形态,以电子或其他方式记录的结构化或非结构化数据。数据价值则反映了在组织中,数据可直接或间接带来经济效益和社会效益,是一种数据资源。 1.3数据资产与数据治理 根据对数据资产的定义,我们了解到数据资产体现数据的价值和数据的应用。通过对数据资产盘点及价值分析,找出有价值的数据并展示其价值和应用,也就是说并非所有的数据都是资产,只有对企业有价值的数据才被认作是数据资产。因此,这里就存在一个关键性的问题,如何将企业数据变为资产,从而进一步实现价值变现就显得尤为关键,而数据治理是解决这个核心问题的钥匙。 数据治理在整个数据体系中主要解决的是人与人、人与数据之间的事,在整个治理过程中体现了数据的管理以及数据价值的呈现。如果说数据是企业信息化的原料,那么数据治理便是企业信息化的基石,数据资产则基于数据治理的数据,挖掘数据的价值,通过数据运营、数据分析的手段,为企业赋能,助力企业的信息化建设,完成数字化转型。 第二章数据治理解决了什么问题? 网易作为一家互联网公司,很早就在生产活动中应用数据的分析结果,助力业务的增长。随着业务规模的扩大,如网易云音乐、网易有道、网易新闻、网易严选等多个业务线的孵化,同时也诞生了大量的集群,内部对于集群统一管理的呼声也日益变高。2018年以前,网易还没有将数仓的建设提升到组织架构的层面去规划,导致各个业务部门的不同团队都有一些零散的数据开发和分析人员承载本团队内的数据分析需求,这样的一个组织架构导致的结果就是很多零散分裂的小数仓存在,烟囱式的开发对业务带来了严重的影响。到了2018年,因业务规模的快速扩大,数据量的急速增长,相应的数据问题终于爆发,例如数据使用率低、数据经常违反常识、数据成本指数增长导致投入产出比低、数据安全风险日益突出等等,数据治理迫在眉睫。我们将上述问题进行了归类,总结出了四个数据使用过程中的问题,分别是找不到、看不懂、信不过、管不住。 找不到 除了数据量的不断增大,数据的发现效率成为使用数据的门槛之一。在网易内部,严选的业务线约有8万张表,音乐的业务线约有4万张表,对于数据分析而言,越靠近应用层,越会存在很多大的宽表,一个表有上百个字段是一个非常正常的事情。对于数据使用者而言,从几万张表中找到自己需要的数据,犹如大海捞针,谁也不清楚系统中到底有哪些数据,也不知道如何去快速准确的找到这个数据。对数据地图的用户进行分析,发现居然有90%以上是IT人员,而原本作为产品目标用户的业务人员却几乎无人使用。 看不懂 即便业务人员找到数据,我们发现,他也很难看懂数据。据统计,高达78%的表都存在元数据缺失,尤其是管理元数据和业务元数,而业务元数据和管理元数据,是业务人员了解数据业务含义最重要的信息。通常来讲,技术元数据的完整度一般都是最高的,可以通过系统化的采集获得;而管理元数据和业务元数据,与业务相关性较高,是需要业务配合来补充完善的,因此相对的,其缺失度更高。 信不过 质量是数据的生命线,没有质量保障的数据,不仅没有价值,还会产生错误的决策。我们在严选就曾经出现过,因为开发修改了一个上游任务的数据计算逻辑,影响了下游一张涉及资损的表的数据正确产出,结果导致红包超发,产生了几十万的资损。这些血淋淋的教训反复告诉我们,保障质量对于业务团队对数据的信任有多重要。 数据违反常识是数据质量问题的一种表现,开发人员往往不理解数据背后的含义而无法从开发结果上判断数据是否满足业务方要求,导致数据质量的问题最后都在业务方使用过程中暴露出来,久而久之业务方对于开发团队的数据不再信任。我们曾对popo群(网易内部工作通讯工具)里面每日反馈的问题进行统计,平均下来,每周就有10个数据质量问题被反馈,“数据违反常识”是当时我们听到的最多的一句业务部门的吐槽。更为严重的是,这里面90%的问题,都是数据使用方先于数据开发方发现的,对于我们数据团队来说非常的被动,往往出现问题我们自己都不知道。 管不住 企业业务的高速发展,导致业务上的数据量不断增加,相应的数据的成本也呈指数级增长。而在企业众多成本当中,数据的成本往往是最容易被忽略的。事实上,数据的成本不仅仅是钱的问题,还是资源没有最大化使用的问题。我们曾对内部某事业部的数据进行分析,发现78.39%的表占据了21.63%的存储空间,这些数据都是无人访问的,造成了大量的计算资源和开发资源的浪费。 另外,资源的滥用还会影响集群的稳定性,据内部的记录,每个月都有5次事故跟资源滥用有关,例如一个5层嵌套的大SQL瞬间把集群打挂等等。公共资源的管理不当、缺少科学的数据资产沉淀方式,最终导致存在大量无人问津的数据,数据成本居高不下。 随着数据量的不断增大,除了资源管理上的问题,企业还面临着因为使用数据的人越来越多而导致的数据安全问题。企业既想要员工多用数据,又要确保不同密级的数据被对的人所使用。不合理的数据权限及功能权限的分配会导致数据误删、数据泄密的问题经常发生,对于企业来说是无法接受的。此外,复杂的权限设置以及频繁的授权申请都会对数据的使用效率造成影响。一个业务运营,想要使用这张表,他首先要能够找到这张表的负责人,然后联系对其授权。这个过程往往要花费一天的时间。同时,作为授权方,数据负责人往往也不清楚,到底该不该把权限授予申请人,这就造成一个很尴尬的情况,就是权限流于形式,只要你能找到表的负责人,就可以获得这个表的访问权限。 第三章到底什么是数据治理? 3.1数据治理宏观政策 目前,全世界已经进入数字经济时代,数字经济已经成为支撑当前和未来世界经济发展的重要动力。自十八大以来,党中央就高度重视发展数字经济,并将其上升为国家战略。19年11月首次将数据列为生产要素,20年4月在《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中正式提出将数据作为与土地、劳动力、资本、技术等传统要素并列的第五大生产要素,数据要素是实施国家大数据战略、加快建设数字中国、深化数字经济化发展的核心引擎。 党的二十大报告中明确指出“坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天强国、交通强国、网络强国、数字中国。”在此背景下,数字技术作为企业数字化转型的核心动力,赋能企业帮助企业完成数字化转型,提升企业竞争力开辟第二条增长曲线。而企业数字化转型过程中需要数据先行,以数据治理为肯綮,通过对数据进行规范化、标准化以及流程化的治理,提炼企业数据资产,激发数据要素潜能,实现企业数据资产化、价值化、智能化,从而助力企业完成数字化转型。因此,数据治理是企业在数字化转型过程中关键而又绕不开的一个环节。 3.2数据治理的概念 那么到底什么是数据治理?数据治理的内容又包括哪些?这些都是企业在准备开始进行数据治理之前需要考虑清楚的问题。此外,企业在进行数据治理之时也经常容易走入误区,比如在项目初期就希望进行大而全的数据治理,往往因为缺失重点而导致事倍功半,又比如知道元数据、数据标准、数据质量在数据治理过程中的重要性,但是在实际交付过程中却发现难落地等等。所以在做数据治理之前,首先要了解数据治理,正所谓以汤止沸,沸乃不止,诚知其本,则去火而已矣。 DAMA 国际数据管理协会(DAMA国际)在其《DAMA数据管理知识体系指南(DAMA-DMBOK2)》一书中将数据治理进行了定义,即在数据资产管理过程中行使权力和管控的过程,称为数据治理。并将数据治理作为数据管理十大知识领域的中心,负责知识领域的平衡和一致性。DAMA对于数据治理的定义显得较为抽象,但实际上去了解其中对于数据治理主要工作内容的定义,不难发现它是从数据战略,数据制度,数据架构、建模和设计等标准,以及数据监管合规、数据资产估值等维度进行描述。同时,DAMA-DMBOK2一书中还给出了数据治理实施和度量指标的相关指导和建议。可以说,DAMA从数据治理的定义、活动、工具和方法、实施指南以及度量指标给出了比较全面的解释,但是距离企业可落地的数据治理还是距离较远,更像是纲领性的介绍,因此对于如何进行数据标准的制定以及如何进行数据资产的评估都缺少具体的描述。 DCMM DCMM(DataManagementCapabilityMaturityAssessmentModel,数据管理能力成熟度评估模型)是我国首个数据管理领域国家标准。数据管理能力成熟度评估模型给出了数据管理能力成熟度评估模型以及相应的成熟度等级,定义了数据战

你可能感兴趣

hot

数据治理行业实践白皮书(2023版)

信息技术
袋鼠云2023-03-07
hot

城市数据治理白皮书

房地产
中国电子与清华大学2021-08-31
hot

数据治理标准化白皮书.

信息技术
中国通信标准化协会2021-12-22
hot

数据治理行业实践白皮书

信息技术
袋鼠云2023-03-01