您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[跬智信息]:2023指标平台建设方法与实践白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023指标平台建设方法与实践白皮书

信息技术2023-04-22跬智信息更***
AI智能总结
查看更多
2023指标平台建设方法与实践白皮书

⽩⽪书 指标平台 建设⽅法与实践 ⽬录 指标平台建设背景5 指标平台发展史5 早期的数据建模(1996-2010年)5 ⾃助式BI的出现(2010年初)6 数据平台的进步(2015-2020年)6 数据分析平⺠化孕育了新的数据应⽤(2017年⾄今)7 指标平台概念介绍8 指标建设的现状8 痛点1:数据孤岛/数据烟囱8 痛点2:指标⼝径、标准不统⼀9 痛点3:指标体系不完整10 痛点4:指标问题难追溯10 痛点5:数据治理难10 痛点6:指标计算重复,分析效率低10 痛点7:分析平台特性不⾜以⽀撑决策11 指标平台建设的价值动因11 理解业务12 发现问题12 定位原因12 精细化运营12 挖掘价值12 指标平台建设框架13 指标的基本概念13 什么是指标?13 指标分类13 维度13 维度属性14 度量14 指标主题14 原⼦指标14 派⽣(衍⽣)指标14 复合指标14 指标计算15 指标体系⽅法论16 OSM模型16 北极星指标17 指标体系建⽴流程18 指标数据标准20 指标标准要求20 谁来制定指标数据标准?21 谁会使⽤指标平台?21 指标需求对接流程21 指标平台功能规划22 指标定义22 指标看板22 指标应⽤23 指标⾎缘23 指标分享23 指标推荐23 异动预测24 指标洞察24 指标计算引擎24 Kylin24 Spark25 Druid25 ClickHouse25 KyligenceZen⼀站式指标平台介绍26 KyligenceZen指标平台的定位26 KyligenceZen产品能⼒26 KyligenceZen产品优势29 指标平台建设案例30 平安银⾏:潘多拉指标平台30 ⻉壳找房35 Airbnb:Minerva指标平台41 Uber:uMetric来解决指标差异问题41 总结42 关于Kyligence43 参考引⽤44 指标平台建设背景 指标平台发展史 指标平台的话题在数据界越来越热⻔,往往热⻔的东西总是新出来的。但实际上,和商业智能(BI)的概念⼀样,指标平台的概念可能⽐您想象的还要⻓。 指标平台最开始出现,是在像Airbnb、Uber和LinkedIn这样的⼤型科技公司。他们发现,为了了解公司的业务并对其进⾏分析,需要有⼀个集中的地⽅来进⾏指标的定义和管理,因为只有在⼈们信任数据,且每个⼈使⽤的数据都保持⼀致时,项⽬洞察和商业分析才有价值。然⽽现实情况是,混乱的数据孤岛、增⻓的数据量、复杂的计算,才是每个数据故事的开头。分散的指标给数据分析师带来了诸多困扰,在多样的前端需求(CRM,BI,Python,SQL,API)和多种数据来源(ERP,APP,Web,RDBMS,Excel/CSV)之间,需要有⼀层平台,来帮助他们实现数据的存储、计算和控制。 ⼤家对这样的⼀层平台探索已久,指标平台就是这层平台发展⾄今的⼀种最新形态,我们来回顾下: 早期的数据建模(1996-2010年) 在⾃助式BI(Tableau,PBI)出现之前,是传统BI平台的世界,知名的产品有SAPBusinessOjects,IBMCognos,OBIEE,MicroStrategy等。客⼾依赖IT专家和流程来管理数据的消费。⼤多数BI的⼯程师使⽤的⼯具都是基于脚本任务和SQL语句所建⽴的,这使得编排数据管道变得⾮常具有挑战。 ⾃助式BI的出现(2010年初) 2010年后,交互式仪表盘在业界掀起了⼀场⻛暴,为数据团队和业务团队之间更多的合作开辟了道路。随着交互式报表成为数据分析团队的主要产出,帮助业务决策者消费他们⾃⼰的数据,“仪表盘即服务”的想法出现了。但因为终端⽤⼾的偏好,⼤多数公司有不⽌⼀个BI⼯具,导致同样的分析逻辑在不同⼯具中重复。 数据平台的进步(2015-2020年) 2015年左右,数据集市的概念逐渐过时,因为⼈们不再在BI⼯具中维护这些漂亮的固定界⾯仪表盘。相反,数据平台旨在摄取、处理、分析和展⽰,将不同的源数据统⼀到数据仓库进⾏处理。随着越来越多的公司投资数据平台建设,这些BI⼯具越来越先进,在某些情况下也越来越专业。并⾮所有的⼯具都能在单⼀的数据平台中⽣存。 数据分析平⺠化孕育了新的数据应⽤(2017年⾄今) 近年来,数据分析的流⾏使得这种专业化更进⼀步,孕育了新的⼯具,实现了新的应⽤平台对接。这引发了对治 理的要求,以及围绕数据可⻅性、数据⾎缘和业务运营状况的新挑战。不⼀致的数据集使分析员不得不涉⾜数百 ⾏的SQL,以确保他们获得的答案是准确的。今天,团队从他们的数据仓库或数据湖中提取数据,放⼊中台进⾏管理,并将这些数据引⼊各种⼯具,包括多个BI和实验平台。⽬前⼤家的共识是将对指标的统⼀管理作为这层中台的核⼼能⼒,来承接可视化和⾃动化流程中间的空⽩。 如今指标平台、数据中台等产品如⾬后春笋般出现,均以实现OLAP下的数据治理,同时减少计算逻辑和数据的重复,赋能新时代的数据应⽤为⼰任,但最终将⾛向何⽅,还需要更多的实践与探索。介绍完了数据平台的历史,接下来我们将从指标平台的概念开始介绍。 指标平台概念介绍 指标平台是供组织集中管理、存储关键指标的平台,提供统⼀业务模型、指标管理、指标加⼯、数据服务于⼀体的完整的解决⽅案。它是⼀种集中组织数据的⽅式,以可重复的⽅式访问关键指标,⽤⼾可以使⽤多种应⽤在下游消费这些指标。 中台即连接后台与前台的“中间层”,根据前台的需求去后端找数据,并加⼯成”数据服务API”,供前端所有系统来使⽤。指标平台作为数据中台的特性有:⼀致性、访问性和复⽤性。作为数据架构的⼀部分,指标平台作为⼀个标准化的单⼀可信源,开始受到重视,有了指标平台,您可以: 以各个类型的指标为对象,集中管理和消费数据仓库中的数据。 建⽴标准,确保企业指标背后的数据是准确和⼀致的。 不论⽤⼾使⽤的是什么⼯具,提供对准确数据的访问,⽅便⼈们在分析数据时看到⼀致的结果。 指标建设的现状 指标能够直接反映企业的⽣产运营状况,从⽽为企业决策提供数据⽀撑。⼀⽅⾯随着国家⼤数据战略实施与企业数字化转型的驱动,指标的重要作⽤⽇益凸显;另⼀⽅⾯指标管理上的诸多痛点使得全企业实施统⼀的指标管理成为必然要求。但要想把指标管理好并不容易,不仅需要科学合理的⽅法论,还需要有效的技术⽀撑。 指标作为⼀种业务元数据,与企业元数据有着千丝万缕的联系,所以可以把指标管理当做元数据管理的⼀个应⽤。那么,如何管理指标?如何通过分解业务实现指标的管理?为了解决这些问题,我们先从企业⽬前指标管理的痛点谈起。 痛点1:数据孤岛/数据烟囱 由于企业业务发展的历史原因,企业内部信息系统的建设多为烟囱式建设。各部⻔按照部⻔内的需要主导了不同信息系统的建设,⽽没有从全局视⻆考虑如何整合各个系统。烟囱式的系统建设,数据⼝径的不⼀致会导致决策者⽆法从统⼀视⻆去了解企业经营的状况,在企业整理经营汇报时,会出现不同业务部⻔对业务经营现状得出完全不同的调整建议的问题。 痛点2:指标⼝径、标准不统⼀ 数据⼝径是指统计数据所采⽤的标准,即进⾏数据的相关⼯作所依照的指标体系。数据⼝径包括采集⽅式、统计 范围等指标。在企业内各部⻔、各渠道的业务员,会根据⾃⼰业务范围内的指标进⾏命名,这样就会造成⼝径不 ⼀致的情况。指标⼝径不统⼀就会导致⼀个简单的业务问题在不同团队那⾥会得到不同的汇报数字。更糟糕的是, 没有⼈知道究竟哪个数字是对的。例如下⾯图例⾥⾯的销售额计算结果不⼀致。 痛点3:指标体系不完整 建⽴完整的指标体系在企业中尤为重要。如果没有指标,我们能够知道的信息就会变得很少,亦或是获取信息的成本会变得很⾼。如果只有指标,⽽没有体系,我们能够知道的信息就会变得很窄,亦或是获取的信息就会变得很乱。进⽽,体系的缺位会导致组织的“数据指南针”失效。越是在⼤型组织当中,指标体系越为重要,因为决策者离⼀线业务较远;公司的业务虚拟属性越强,指标体系越为重要,因为公司与客⼾的距离较远。简⽽⾔之,建⽴指标体系的⽬的就在于获取全局性的、有体系性的信息;进⽽通过这些信息去驱动业务的发展,达成组织⽬标,这就是指标体系之所以如此重要的原因。 痛点4:指标问题难追溯 “指标计算结果出错了,问题出在哪⾥,是计算过程的问题还是因其他指标出错导致的连环出错,还是说数据在录 ⼊的时候就出错了?是谁的责任?” 指标⼤多都是经过多种计算得到的,有些指标需要经过很⻓的加⼯过程才能得出。如果⽆法追溯指标的加⼯过程就难以知晓指标所⽤的数据来⾃哪⾥,且⽆法快速找出指标出错的原因和对应的责任部⻔,使得指标的⼀致性、完整性和准确性得不到保证。 另外出现问题时部⻔之间互相推诿的情况时有发⽣,导致指标问题难以得到解决。 痛点5:数据治理难 企业不仅需要管理数据的系统,更需要⼀个完整的规则系统以及规章流程。数据治理基本上涵盖了企业所有与数据有关的内容,因此在整个企业范围内,包括⼯作流程、涉及⼈员和使⽤的技术等等,都需要经过仔细考量,以保证数据的可⽤性、⼀致性、完整性、合规性、和安全性,确保在整个数据⽣命周期中,都具有较⾼的数据质量。 ⼀旦数据的质量难以保证,那么多少⾼⼤上的分析算法都成了空中楼阁。底层的基座决定上层建筑。如果给数据分析算法灌进去的数据是“垃圾”,那么分析的结果也⼀样是“垃圾”。这就是⼤数据界经典的效应:GIGO(GarbageinGarbageout)。 痛点6:指标计算重复,分析效率低 指标平台旨在管理企业的海量指标,以及指标的各类衍⽣和复杂计算,这就涉及到指标成倍的存储和计算。随着数据量产⽣速度越来越快,传统平台存储与计算能⼒遇到瓶颈,查询耗时较⻓,⽆法快速响应。虽然指标平台前期建设也需要⼀些指标的计算设计,但是后期指标平台可以通过派⽣、复合,减少⼆次创造指标的重复劳动问题和资源浪费问题。 将指标物化在数据仓库层是⽬前来说常⽤的⼀个解法,数据仓库⽀持将指标定义在视图(View)中,然后让其他 ⼯具去查询视图。不少企业⽬前就是在使⽤视图来解决分析指标的计算和查询问题。使⽤视图的问题是仅能针对 ⼀些查询需求进⾏物化,在各类查询需求繁多的时候,数据⼯程团队需要准备⼤量的视图,开发成本极⾼,数据管道复杂不说,还很容易出错。 当上游的数据出现问题的时候,下游系统很难知道,就⽆法及时同步修复,这会导致数据的消费者如数据科学家, ⼯程师需要花费⼤量时间来debug数据不⼀致问题,这使得他们的⼯作效率⾮常低下。 ⽐如下图为引⼊指标平台之前的Airbnb数据平台:建⽴在核⼼数据之上的衍⽣表⼤量激增,带来了⼀系列问题。 痛点7:分析平台特性不⾜以⽀撑决策 在⾃助式分析逐渐普及的趋势下,传统数据平台不能够⽀持灵活的⾼并发的分析⽅式,⾃助式体验不好。⽐如有时候决策者想要下钻分析到局部,但是系统却不能响应即席分析。此外,数据查询以后进⾏的聚合计算会导致数据获得缓慢,这样决策的效率就会受到影响⽽延后。灵活性、可扩展性、实时性、⾼并发性等特性逐渐成为了分析平台必不可少的需求。 指标平台建设的价值动因 在不久以前,如果组织想要⼀个集中的指标平台,他们必须⾃⼰建⽴。这需要⼤量的基础设施投资,有时还需要数据⼯程团队的⻓周期⼯作。⽆论是⾃⼰开发,还是直接购买,都需要付出前期的成本。那么企业⼤量投⼊后,能从指标平台获得哪些价值,我们接下来介绍。 理解业务 因为指标是⽤量化管理的⽅法将业务进⾏统⼀管理,指标平台实现了可以⽤指标为统⼀语⾔来了解业务发展,整体理解业务的真实状况,贴合业务的价值和⽬的。业务⽤⼾也可以通过指标所描述的对象和场景来理解业务,⽐如,有的业务场景看重费率、有的业务场景看重客单价。 发现问题 通过对历史数据的对⽐分析,指标的不同特点可以反映业务问题。例如指标在各个维度的特点,指标有没有随着时间产⽣周期性变化,还可以分为在不同的业务⽣命周期和⽤⼾⽣命周期。在同样的指标下,不同业务场景表现如何,例如游戏平台、内容平台、课程平台的活跃时⻓都会有所差异,这种差异既和业务形态有关,也和⽤⼾需求有关。