您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[金融信息化研究所]:金融数据仓库发展报告白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

金融数据仓库发展报告白皮书

2022-11-15-金融信息化研究所李***
金融数据仓库发展报告白皮书

(白皮书) 金融信息化研究所(FITI) 2022年11月 FITI金融信息化研究所 编制委员会 主任:潘润红 副主任: 习辉、庄文君 编委会成员(排名不分先后,按姓氏拼音排序): 董理斌、辜敏、郭煜、刘远东、李凡、彭贵平、饶争光、田永江、童蕙、王瑜、魏文术、向民、谢云龙、叶涛、尤鹏、尤俊、周全 执 笔(排名不分先后,按姓氏拼音排序): 曹嘉欣、从平平、冯明亮、高犇、高鹏、侯伟、黄海燕、黄书春、李杰、李智、刘志浩、刘振东、彭强、孙玖山、苏萌、王汉福、王健楠、王帅强、王志远、魏冲、徐嘉禛、杨锐、杨大鹏、赵昆鹏、赵义斌、张倩、周晓阳、朱并队 统稿人(排名不分先后,按姓氏拼音排序):从平平、张倩 FITI金融信息化研究所 主编单位: 金融信息化研究所 华为云计算技术有限公司中国工商银行股份有限公司交通银行股份有限公司 中国光大银行股份有限公司招商银行股份有限公司 参编单位: 中信银行股份有限公司 中国民生银行股份有限公司华夏银行股份有限公司 兴业银行股份有限公司中原银行股份有限公司 威海市商业银行股份有限公司 江苏江南农村商业银行股份有限公司中电金信软件有限公司 深圳市长亮科技股份有限公司北京宇信科技集团股份有限公司 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 摘 要 随着数字金融快速发展,金融业数据量爆发式增长,数据挖掘、分析、应用已逐步成为金融业务发展和管理决策的重要支撑手段,数据成为金融机构的核心资产。数据仓库可对异构源数据进行有效集成,面向数据分析场景,支持全局信息共享和决策分析处理,充分释放数据价值,助力构建数据要素市场。针对金融数据服务、存储、处理、质量和安全等不同维度的需求,金融数据仓库需提供适配的架构和技术,包括超大规模并行处理满足海量数据的算力要求、高可用及容灾技术实现数据永远在线、动态负载管理满足多样化负载统一管理、数据安全技术保障数据合规访问、融合分析技术打通结构化与非结构化数据分析边界、弹性扩展技术满足系统在线按需扩展以及管控一体的智能运维释放运维压力等。为顺利开展金融数据仓库建设,金融机构应进行合理规划、精心组织、高效实施,准确把握数据仓库的T+0,湖仓一体、数智融合、存算分离、高维分析、HTAP、DataMesh、DataFabric、现代数据栈及数据共享十大发展趋势,切实提升金融数据应用水平,助力金融科技快速发展、金融业数字化转型深入推进。 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 录 目 1.概述01 1.1.数据仓库发展历程01 1.2.数据仓库成为金融行业的重要应用02 2.金融数据仓库发展现状04 2.1.金融数据仓库建设进展04 2.2.金融数据仓库数据存储情况07 2.3.金融数据仓库投入情况08 2.4.金融行业使用数据仓库的痛点及诉求09 3.金融关键业务对数据仓库的要求11 3.1.数据服务要求11 3.2.数据存储要求12 3.3.数据处理要求14 3.4.数据质量要求15 3.5.数据安全要求16 4.金融数据仓库总体设计与关键技术18 4.1.金融数据仓库模型18 4.1.1.数据仓库模型设计原则18 4.1.2.数据仓库模型层次20 4.1.3.数据仓库建模方式20 4.2.金融数据仓库架构设计21 4.2.1.数据仓库架构设计原则21 4.2.2.数据仓库典型设计架构22 4.3.金融数据仓库典型技术架构23 4.4.金融数据仓库的关键技术25 4.4.1.超大规模并行处理满足海量数据的算力要求25 4.4.2.高可用及容灾技术实现数据永远在线26 FITI金融信息化研究所 金融信息化研究所(FITI) 专注金融科技发展战略、金融科技理论与实务、信息安全研究 4.4.3.动态负载管理满足多样化负载统一管理27 4.4.4.数据安全技术保障数据合规访问29 4.4.5.融合分析技术打通结构化与非结构化数据分析边界30 4.4.6.弹性扩展技术满足系统在线按需扩展30 4.4.7.管控一体的智能运维释放运维压力31 金融数据仓库建设策略33 5. 5.1.指导原则33 5.2.建设规划策略33 5.2.1.实施规划34 5.2.2.运营规划35 5.3.实施要求38 5.3.1.组织架构38 5.3.2.实施过程39 5.3.3.规范约束39 5.3.4.实施注意事项40 5.3.5.主要交付件40 6.金融数据仓库十大发展趋势42 6.1.T+0分析43 6.2.湖仓一体44 6.3.数智融合44 6.4.数据共享45 6.5.存算分离45 6.6.高维分析46 6.7.HTAP46 6.8.数据网格(DataMesh)47 6.9.数据编织(DataFabric)47 6.10.现代数据栈(ModernDataStack)47 附录:金融数据仓库行业实践49 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 图目录 图1金融数据仓库建设情况04 图2不同类型金融机构使用我国主流数据仓库产品情况05 图3国有大行、股份制银行主流金融数据仓库产品使用情况06 图4金融数据仓库数据量分布情况07 图5不同类型金融机构数据仓库数据量情况08 图6数据仓库在所有数据库中的投入占比情况08 图7金融数据仓库应用的主要痛点分析09 图8金融机构对数据仓库的诉求分析10 图9数据仓库典型设计架构示意图22 图10典型银行的数据仓库平台技术架构图24 图11数据仓库建设规划示意图33 图12容灾规划的三种形式37 图13实施组织架构图38 图14金融行业对数据仓库技术关注热度分布42 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 概述 1. 1991年BillInmon在《BuildingtheDataWarehouse》书中提出数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 1.1.数据仓库发展历程 早在20世纪70年代就开始萌发数据仓库的概念,却在相当长一段时间都停留在理论层面。一直到数据仓库基本原理、技术架构以及分析系统等主要原则确定,数据仓库才初具雏形。但由于数据仓库的实施难度过大,在方法和架构上很难有清晰的路径,导致大多以失败告终。此时, FITI金融信息化研究所 金融信息化研究所(FITI) 专注金融科技发展战略、金融科技理论与实务、信息安全研究 数据集市因实施难度较低,并且能够满足企业部分业务部门的迫切需求,得到了一定的发展。而随着数据集市的不断增多,独立建设的数据集市由于遵循不同的标准和建设原则,导致多个数据集市的数据混乱、不一致,进而产生数据孤岛。为了解决这个问题,1998年Inmon提出了新的BI架构CIF(CorporationInformationFactory,企业信息工厂),即在不同架构层次上采用不同的构件来满足不同的业务需求。 进入21世纪,信息化转型的大潮席卷而来,数据量呈现爆炸式增长,得力于Oracle、IBM及Teradata等产品在分析型应用上的成熟,数据仓库产品快速发展。 1.2.数据仓库成为金融行业的重要应用 数据仓库作为金融行业数据分析平台的核心,能对异构源数据进行有效集成,面向数据分析场景,支持全局信息共享和决策分析处理,已成为金融行业重要的基础设施。经过几十年的演进和创新,当前各金融机构主要使用的是第二代探索型数据仓库。未来,随着技术的迭代,金融数据仓库会不断向着运营型和智慧型迈进。 初代描述型数据仓库,基于历史数据反映发生了什么事情。金融机构通过BI服务和固定报表等主要应用做T+1批量数据分析,为外部监管机构报送、内部经营分析及运营管理提供准确的数据支撑。第二代探索型数据仓库,增加了数据科学场景支持,业务分析师通过自助分析挖掘数据价值,研究历史数据得知为什么会发生这些情况。由于可以很好支持半结构化和非结构化数据,支持数据科学和机器学习,金融数据仓 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 库的应用范围开始迅速扩展,除了传统的监管审计类报表应用,还涵盖了客户服务、产品销售、风险管理、绩效管理等领域的完整数据应用,数据处理成为整个应用价值链交付中非常重要的环节。 但随着互联网金融、移动支付等金融服务爆炸式扩展,金融机构在风险管控和运营管理的时效性面临越来越大的挑战。第三代运营型数据仓库应时而生,也称之为实时数仓,基于T+0数据描述正在发生的事情。其对探索型数据仓库的ETL方式、源批量文件接入方式进行了优化,以ELT模式实时接入源数据,强调HTAP混合负载能力,解决时效性问题,让金融机构能够从实时动态的监控指标体系寻找机会、防控风险,帮助决策者实时运营。 此外,目前金融机构内部数据平台尚未完全打通,机构之间数据处于割裂状态,资源配置效率不高。同时,国家政策提出要从“数字基建”向“数智基建”转变,数据仓库作为数据基础设施的基石,通过数流和智流的融合,可助力资源配置效率提升、金融风险控制、数据资产共享。因此,金融机构开始探索面向未来的预测型数仓,也称之为智慧型数据仓库,可以描述将来要发生什么,以及如何引导未来。智慧型数仓融合数据分析技术和人工智能技术,引入人工智能在视频、图像、语音等非结构化数据的高效处理的能力,替代人类重复性工作,将有效提升工作效率与用户体验。 总体而言,金融数据仓库从仅支持批量报表服务,到支持数据探索、实时分析、数智融合,支撑金融业务持续创新。 FITI金融信息化研究所 金融信息化研究所(FITI) 专注金融科技发展战略、金融科技理论与实务、信息安全研究 金融数据仓库发展现状 2. 金融数据仓库建设进展 2.1. 银行、证券、保险等不同领域的金融机构普遍建设了数据仓库,以满足金融业务对数据的需求。银行业建设数据仓库占比最高,证券业和保险业相对较低,同时,银行业不同类型机构数据仓库建设情况也不相同。国有大行、股份制银行、直辖市农商行及省联社基本都建设了数据仓库,占比达到100%,而区域性城市商业银行尚有部分机构未建设数据仓库,以数据集市应用为主,如图1所示。 金融数据仓库建设情况 保险业 86.67% 证券业 88.46% 直辖市农商行、省联社 100.00% 城市商业银行 92.31% 股份制银行 100.00% 国有大行 100.00% 80.00% 85.00% 90.00% 95.00% 100.00% 105.00% 数据来源:金融信息化研究所 图1金融数据仓库建设情况 FITI金融信息化研究所 金融数据仓库发展报告(白皮书) 不同类型金融机构使用我国主流数据仓库产品的情况也不相同,相较于证券业和保险业,银行业使用我国数据仓库产品的机构数量占比较高。不同类型的银行业金融机构使用情况也不同,其中国有大行基本都使用我国数据仓库产品或采取自研自建数据仓库的模式,机构数量占比达到83.33%,其次是股份制商业银行和直辖市农商行、省联社,区域性城市商业银行使用我国数据仓库产品的机构数量占比较低,如图2所示。 不同类型金融机构使用我国主流数据仓库产品情况 90.00% 83.33% 80.00% 70.00% 66.67% 60.00% 50.00% 45.45% 40.00% 30.00% 20.00% 10.00% 0.00% 14.71% 9.09% 7.69% 国有大行股份制直辖市农商行、 银行省联社 城市商业 银行 证券业 保险业 数据来源:金融信息化研究所 图2不同类型金融机构使用我国主流数据仓库产品情况 FITI金融信息化研究所 金融信息化研究所(FITI) 专注金融科技发展战略、金融科技理论与实务、信息安全研究 通过调研全量的国有大行和股份制银行关于我国主流数据仓库产品使用情况,可以发现其使用最多的数据仓库产品是华为云GaussDB(DWS),机构数量占比达到38.89%,其次是南大通用GBase8a和阿里云AnalyticDB,然后是阿