封面页 (此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿PDF版中做更新) 作者:刘伟光 阿里巴巴集团副总裁、阿里云智能新金融&互联网事业部总经理,毕业于清华大学电子工程系。 加入阿里云之前,在蚂蚁金服负责金融科技的商业推广和生态建设工作以及蚂蚁区块链的商业拓展工作;在企业软件市场深耕多年,曾经创建Pivotal软件大中华区分公司,开创了企业级大数据以及企业级云计算PaaS平台的市场先河。 在创建Pivotal中国软件公司之前,刘伟光曾经担任EMC大中国区数据计算事业部总经理,并在甲骨文中国公司工作多年,曾经创建了Exadata大中国区的产品事业部并担任事业部总监。 过去几年,阿里云、瓴羊等平台和企业,致力于将阿里十数年沉淀的数字化经验,帮助企业尤其是金融机构,通过数据智能落地,探索业务的不断增长。今天,这些经验和思考集结成册,相信无论对金融行业,还是每一个力求数字化的企业,都是极好的经验交流的机会。信息(数据)只有流动起来,才能发挥出最大的价值。数据的未来,就是我们的未来。 ——阿里巴巴集团副总裁、瓴羊CEO朋新宇 在过去的二十年,我们看到一个越来越明显的趋势,数据要素正在转化成为金融企业新的“资产”,在风险防范、客户服务、产品推广等领域发挥着不可或缺的作用,助推金融企业的业务发展。但是数据并不会自发地转化为资产,业界的成功经验表明,这背后需要建设一套完整的数据体系,并且需要有体系化的建设方法,否则企业会深受数据质量差、底数不清、数据更新不及时、数据口径不一致等问题的困扰。该文基于阿里云多年服务金融行业的成功经验,针对金融企业在数据领域可能遭遇的挑战,从多个维度阐述了数据体系的建设,并且总结了一套完整的数据体系建设方法,对于金融企业而言有很强的借鉴意义。 ——阿里云智能副总裁、行业解决方案研发部总经理曾震宇 一个看似稳定的行业会在什么时候迎来重大的业态改变?可能是新的生产要素出现以及配合新要素的生产工具也出现新发展的时候,这个转变恰好刚刚开始。数据作为新要素获得社会级的支持是近两年的事情,从数据要素统一大市场到数据资产记账规则再到“数据二十条”的发布,我们看到的是国家为新要素发展做出的基础性改变,但企业是否已经真的意识到了新要素的重要性?是否为此准备好了新工具?是否为新工具调适了新组织?可能大部分企业尚未做好这样的准备,也在思考要不要做、要怎么做。阿里云既经历了阿里自身的新要素建设,也观察了多个行业的新要素探索,本次阿里云将经验与思考合盘托出,是一次对数据要素发展的“盘评治享”,相信企业会在此找到同行者。 ——北京天润聚粮咨询执行董事总经理、中国计算机学会软件工程专委会委员付晓岩 引言5 一、金融行业数据领域面临的困扰7 1.数据平台逐渐“掉队”7 2.数据治理面临“熵增”困境8 3.数据资产面临“兵多、精兵少”9 4.数据服务“效率低”9 二、金融数据发展瓶颈的破题之术11 1.转换顶层设计思维11 2.锚定业务价值目标13 3.破除数据供需壁垒14 4.严控数据高质提效15 5.融合算力数智驱动16 6.强化数字人才能力17 三、金融数据能力建设的核心观点19 1.以全局视角的驱动力19 2.以分层视角的核心力23 3.以业务视角的价值链48 四、金融数据能力建设的成功要素57 1.关键能力和价值方向57 2.关键路径和成功要素58 尾声64 引言 “大风起于青萍之末,浪成于微澜之间。”用这句话来形容中国金融行业数据领域发展的历程颇为恰当。 从2003年银行的数据仓库开始建设到今天整整20年过去了,相比其他行业,金融行业是真正完整地经历了数据仓库建设和大数据建设的两个十年周期;同时经历了从MPP技术到Hadoop大数据开源技术,再到存储计算分离的云原生数据处理技术;再到AI数据智能化的时代;从持续了20年的数据治理到今天全域数据资产管理的数据中台化架构,关于金融行业的数据计算分析和智能化运营的探索从来没有停止过。但是如何在原有的数据基础和平台技术积累上完成全局视角的数据能力提升和技术体系的迭代,这是今天金融行业共同关注的话题,也是金融机构进入数字化智能时代的重要标志。 阿里云历时五年助力阿里巴巴集团完成了全域数据中台的建设,同时也服务了众多不同类型的金融行业客户在数据平台的建设和数据治理;数据智能化方面,在接触了近千家金融机构了解实际业务需求和现状后,激发了我们创造本文的热情与初衷,期望用更全面、更立体的视角去定义数据的技术和业务价值;站在全局视角去剖析数据生命周期的管理;站在云原生技术的视角去审视数据计算能力的未来布局。 同时全文解析了从底层数据计算到数据资产化的完整建设方法和路径,分析了当前数据平台如何从分而治之的建设模式和技术体系逐步演进到全局的数据智能化中台。关于数据领域研究,不仅仅是单纯的技术命题,我们也讨论了金融机构内部数据运营模式以及数据人才建设体系这些当前重要话题。 期待本文能够为金融机构不同部门在治理/应用/运营/计算/决策等诸多数据方面的工作,带来有价值的新发现,带来更多关于数据思想的碰撞。 本文共分为四个章节,全面围绕当前金融机构在经历近20年的数据建设中,依然面临的效率、质量、服务、人才等方面问题,核心从业务对数据的痛点入手,通过能力体系建设方法,助力金融机构掌握数据能力体系的建设目标、方法和成功要素,从而推动金融机构逐步实现数据驱动业务发展的目标: 第一章从金融行业数据领域面临的问题出发,重点描述当前金融机构在经历近20年的数据领域建设后,仍然面临数据底数摸不清、数据治理差、数据服务低效、数据资源不足和响应慢的问题,而这些都是我们面对不同金融机构、不同层级的客户提 出的痛点和困惑。我们综合了相关问题,通过部分示例列举的方式给出了相关的判断。 第二章结合第一章分析的数据体系、数据质量、数据资产、数据服务等领域面临的困惑,提出采用全局思维,以业务价值为终极目标,分析数据领域问题,再进行分层分步推进的总体策略。同时,为了便于读者理解,引出数据建设的6大断言,涵盖了数据能力体系顶层设计、业务价值、数据服务、数据治理、数据平台、数字人才相关领域的建设方向,希望为读者带来启发和帮助。 第三章从建设方法入手,给出金融行业未来数据能力建设的核心观点,首先从全局视角规划企业数据能力体系的“1”张数据战略蓝图、“3+1”数据体系以及“6” 大核心能力,并对其中的数据体系提出了算力驱动、数据驱动和价值驱动的3大驱 动力;其次用分层思维,深化“3+1”数据体系设计,提出了数字基建5大法则、 数字资产8项能力、数字应用3个要素、运营保障1套机制的核心能力;最后站在金融机构的“前中后台”不同部门的视角,以获客营销、产品定价、风险审计、数据治理、技术架构等5个领域为例,分析数据体系为企业数字化经营带来的价值。 第四章结合第三章的数据体系建设方法,本章以目标为导向,开篇提出金融行业数据体系建设的5个价值方向,目的是为了让读者了解未来建设数据体系的成效目标。然后围绕数据体系化建设、数据模型合理选择、数仓建设模式、数据服务协同、数据资产运营、数据确信机制等方面给出相应的策略分析,帮助金融机构结合自身现状和现有成果进行选择,满足自身发展需求的建设路径和方法,或者是整体重构,也或者是升级优化。此外也建议金融机构在实施路径上,既要有战略层面的全局设计,也要能小步快跑,满足现阶段业务发展需求。合理的选择实施策略和制定短中长期建设目标,将成功助力金融机构数字化转型。 一、金融行业数据领域面临的困扰 真正的竞争力,是把所有人都可能拥有的东西变成财富,让沙子变成硅,这才是核心。 —王坚《在线》 数据是战略资源。如何高效获取更多有用有价值的数据?如何让数据赋能业务创新?如何保持指标口径一致,让监管数据更加准确?如何让更多的业务人员懂数据,又如何让更多的普通人会使用数据?这些问题都是当前各金融机构在数据领域建设中普遍面临的困扰。 1.数据平台逐渐“掉队” “哪里的数字化程度高,用户就往哪里迁徙。” 数字化程度一个重要标志就是,“数据与业务的关系”是否能从“跟随”(事后分析)、走到“伴随”(实时分析)、再走到“引领”(智能服务)。数据平台能力越强大,将会越快步入数字化程度更高的阶段。 金融数据是大数据商业应用最早的数据源。早在1996年摩根大通银行就聘请数学家丹尼尔利用递归决策树统计方法,对抵押贷款用户进行统计分析,帮助银行找到可能提前还款或者未来不会还款的客户。国内金融机构以国有大行为代表,从建设数据仓库至今已有近20年的时间,大数据技术从商业产品到开源产品“百花齐放”, 数据大集中推动了企业级数据平台的形成与发展,在发展的过程中,金融机构形成了一套相对完整的数据技术体系和管理体系,支撑了以监管报送、统计分析、业务决策为代表的应用场景,取得了一定的成果。但同时,业务发展对数据井喷式的需求,金融服务粒度正在从“大”到“小”到“微”,数据平台对业务起到“实时精准制导”作用,原有的数据架构逐渐显得“力不从心”。 数据需求和海量数据的激增使数据平台资源规模的爆发式增加,大型金融机构节点规模达到数百甚至上千台,大规模集群的稳定性与数据容灾等问题凸显;面对异构数据的集成,差异化的数据格式分析,如何满足多样化应用的数据服务需求存在挑战。如,海量数据查询难以高质高效;多源数据统一存储管理,需要非常简单的融合分析能力;源系统数据变更频繁,需要自动识别和管理;全量建仓或者直连分析对源库压力较大,卸载压力规避故障,建仓延时长,需要低延时入湖;海量数据在事务库或者传统数仓中存在成本高,面临降本压力等等。 过去5年金融机构的数据总量增长了3倍多,实时数据、触点数据、过程数据、流数据、音视频(非结构化)数据等数据价值不断被挖掘,未来业务对数据规模、数据类型、数据应用需求会更进一步放大,现有的数据架构开始出现“掉队”情况。 2.数据治理面临“熵增”困境 数据天然面临着“熵增”(模型、指标、数据量)问题,需要一个“都江堰工程”, 持续治理、持续做减法。 金融行业是最早具有数据管理意识、最早开始建设数据治理体系的行业。虽然经过十几年数据标准建设,但金融机构中的数据仍然很难实现统一和规范,管理决策中数据普遍存在“同义不同名、同名不同义”的局面。例如,银行在监管报送和内部管理两个场景都使用“涉农贷款”这一指标,但是因为口径不同计算的结果肯定不同。监管报送中“涉农贷款”的口径只统计“涉及用于农业、林、牧、副、渔业所属活动或支农活动的贷款”,而内部管理的指标还要包含新农村建设、集体经济发展、民俗旅游等维度,因此出现“同名不同口径”的现象。这类同名指标虽有标准定义,但计算加工过程因没有管控,导致不同部门应用指标时会产生差错。 造成数据标准“只有定义、没有落地”的一个非常核心的问题在于,数据标准的“定义”和“实现”实际是两层皮,标准一旦定义完成,就变成“墙上的画”,没有切实镶嵌和固化到日常的数据生产、加工处理和应用的环节当中去,没能建立全链路数据治理能力,有效地从数据生产源头加以强制约束,确保数据质量。 据监管公布数据:2021年度,人民银行及银保监会向各类金融机构共开出“数据相关”的罚单超过1000张,其中与数据质量相关罚单超过800张,占罚单总量的近80%,位列处罚事由榜首。所有超千万大额罚单均与数据质量相关,数据质量直接影响了金融机构的生存质量,如何提高数据质量,已成为金融机构亟待解决的问题。 3.数据资产面临“兵多、精兵少” “数据指标≠数据资产”。企业往往面临着“指标多、资产少”的困境,报表很多, 但能够服务业务,且可复制、可重用的数据资产(精兵)却很少。 经过多年的信息化系统建设,一个中等规模的金融企业往往拥有数百个应用系统、多套数据平台、业务数据表数十万张、业务报表少则几百张、多则数千张。面对这样的“海量信息”,业务和技术人员都会存在一种“坐在金山上讨饭吃”而望数兴叹的感觉。 数据部门的数据分析师“找数难”:例如数据分析师建立分析模型时会困扰“没