版权说明 工商银行大数据技术及应用 白皮书 中国⼯商银⾏软件开发中⼼2024年10⽉ 版权说明 版权说明 本⽩⽪书版权属于中国⼯商银⾏软件开发中⼼,并受法律保护。转载、摘编或利⽤其它⽅式使⽤本⽩⽪书⽂字或者观点的,应注明“来源:中国⼯商银⾏软件开发中⼼”。违反上述声明者,我们将追究其相关法律责任。 ⽬录 ⽬录 第⼀章概述2 (⼀)⼤数据技术发展历程2 (⼆)⼤数据产业发展现状3 (三)⼤数据产业演进趋势9 第⼆章⼯商银⾏⼤数据发展现状13 (⼀)⼤数据平台产品视图13 (⼆)⼤数据平台总体架构14 (三)基于⼤数据平台打造企业级数据中台25 第三章⼯商银⾏⼤数据应⽤案例27 (⼀)基于流批⼀体的个⼈储蓄存款准实时计算⽅案27 (⼆)基于实时数仓的报送解决⽅案28 (三)内外部数据融合的⻛控业务模式29 (四)数据驱动的码上赢新型营销模式29 (五)⾯向营销经理/运营经理的地理空间信息助⼿30 第四章总结与展望32 第⼀章概述 (⼀)⼤数据技术发展历程 随着⼤数据技术的不断迭代优化,数据处理速度、存储容量及分析精度均实现了显著提升,这些进展极⼤地提升了计算能⼒,引发了对算⼒需求的显著增⻓。同时,⼤数据与⼈⼯智能、机器学习等前沿技术的深度融合,正逐步解锁数据的深层价值,为各⾏各业提供了前所未有的洞察⼒和决策⽀持。在这⼀背景下,⾦融⾏业作为数据密集型⾏业,其⼤数据业务迎来了前所未有的创新和发展机遇,不仅促进了⻛险管理、客⼾洞察、产品创新等⽅⾯的精准化与智能化,还加速了⾦融业态与服务模式的深刻变 ⾰,预⽰着⼤数据技术在⾦融领域的未来趋势将更加注重实时性、智能化与个性化服务的提升。 1、萌芽期:传统数仓(2002-2012) 企业需要对数据进⾏全局性经营分析,由此诞⽣了⼀体机架构下的传统数仓。 2、发展期:离线⼤数据架构(2012-2016) 随着互联⽹的急速发展,数据规模爆发式增⻓,⼀体机架构⽆⼒以可接受的成本提供算⼒,⼤数据进⼊开源时代。 3、爆发期:Lambda/Kappa架构(2016-2021) ⼤数据逐渐成为业务的重要⽀撑,业务逐渐产⽣⾼时效的数据感知、分析决策、⾏动和反馈的需求,⼤数据向实时化演进。 4、转型期(2021-2025):云原⽣实时架构 业务复杂度进⼀步增加,数据源越发多样化,更⽅便的⽤数成为业务的主要诉求,⼤数据开始拥抱云原⽣、AI等其他领域。 5、变现期(2025+):⽤数智能 数据作为核⼼⽣产要素,与企业竞争⼒直接挂钩,如何将数据价值快速变现成为关注重点。 (⼆)⼤数据产业发展现状 ⾃进⼊“⼗四五”时期以来,⼤数据产业已迈⼊⼀个新的发展阶段,产业内部逐渐细化,形成数据存储与计算、数据管理、数据应⽤、数据安全四 ⼤核⼼领域。数据源通过数据存储与计算实现压缩存储和初步加⼯,通过数据管理提升质量,通过数据应⽤直接释放价值,并由数据安全技术进⾏全过程的安全保障。四⼤核⼼领域当前呈现不同发展现状,在数据要素⼤战略的新形势下,发展⽅向均进⼀步明确。 ⼤数据产业四⼤核⼼领域 核⼼领域 发展现状 发展⽅向 数据存储与计算 实现了海量数据的⾼效存储、计算 降低运维成本,提升处理效率 数据管理 头部⾏业实现关键数据的管理 各⾏业均实现全域数据管理 数据应⽤ ⽀撑核⼼业务分析和顶层决策 与全域业务深度融合 数据安全 推进外规内化与⻛险治理 将安全治理能⼒嵌⼊业务 ⼤数据技术在数据存储与计算、数据管理、数据应⽤、数据安全四⼤产业领域有不同的发展,存算分离架构、融合⼀体衍进、智能增强分析、数据研发运营⼀体、内⽣安全技术5项成为关注和发展焦点,国内外市场均涌现不少相关产品和⽅案。 1.数据存储与计算领域 【存算分离架构】存算⼀体架构下,⼤数据数据处理产品的存储节点、计算节点功能耦合或者部署耦合,存在部署规模上限低、计算弹性扩缩困难、存算故障隔离弱等问题。存算分离的弹性计算、⾼规模上限、存算故障隔离等架构优势,能够提供更好的算⼒保障和运维灵活性,有助于应对⼤规模数据分析的挑战,从⽽提供更好的数据驱动决策的⽀持。 近年来,业界存算分离⽅⾯的主流产品和样板技术也⽇益涌现。主流产品⽅⾯有ApacheDoris、阿⾥巴巴Hologres、腾讯TCHouse、偶数科技HashData 等。⾦融⾏业中,建⾏联合HashData、⾦⼭云,推出了云原⽣数据库产品“⻰趺”,实现了基于虚拟机部署的存算分离架构。数据中间件技术⽅⾯,开源的缓存层框架Alluxio向上对接Spark、Presto、Hive、TensorFlow等计算应⽤,向下对接阿⾥云OSS对象存储、AWSS3存储、HDFS等不同存储,可提升I/O效率200%以上;ShardingSphere将多类异构数据库MySQL、PostgreSQL、Oracle、SQLServer、GaussDB等包装为统⼀的数据访问接⼝,从⽽⽅便多种编程语⾔直接访问多类异构数据库。 【融合⼀体衍进】在数字化转型深⼊的推动下,数据类型、数据时效和应⽤场景的多样性要求企业搭建不同的平台和引擎来满⾜使⽤。平台⽅ ⾯最典型的如数据湖和数据仓库的部署使⽤。传统的湖+仓库混合架构存在多种问题,如数据冗余、数据⼀致性差、资源配置难、系统复杂等弊端,极⼤增加了运维的压⼒和成本。引擎⽅⾯聚焦在“批、流、交互计算”三种计算模型对应的诸多计算引擎,批、流、交互计算的计算形态不同,优化⽅向也不同,导致各个计算引擎不能形成统⼀,增加了数据处理的复杂度。融合⼀体架构成为横跨数据存储与计算领域、数据管理领域,解决上述问题的⼀类主流技术⽅向,包括批流⼀体技术框架、湖仓⼀体技术框架、混合事务分析处理技术(HTAP)。建⽴融合⼀体能⼒后,统⼀的接⼝层、计算层、存储层、资源调度层实现了对于海量数据的统⼀管理和集群服务的统⼀运维,⼤幅降低了运维综合成本。在2023年,为了统⼀湖仓⼀体框架,部分企业提出“湖仓⼀体”设计标准,例如Databricks的Open、Unified、Scalable三标准(开放、统⼀、可伸缩),偶数科技 ANCHOR标准(多数据类型、云原⽣、数据⼀致性、超⾼并发、⼀份数据、实时T+0)等,显⽰出业界对湖仓⼀体标准化发展的关注。 近年来,海外⼚商Databricks推出DataLakeHouse、亚⻢逊推出智能湖仓架构。国内阿⾥云推出MaxCompute湖仓⼀体⽅案,提供⾼性能数据仓库为主体、⽆需数据搬迁即可⽆缝处理和分析数据湖数据的湖仓融合的数据管理平台;华为云FusionInsight湖仓⼀体架构,在MRS数据湖内承载全量数据,对数据进⾏批量、实时加⼯,⼀个数据平台按需⽀持批处理、流计算、交互查询和机器学习场景;其它如巨杉数据库SequoiaDB、⽹易数帆船EasyLake、柏睿数据RapidsLakehouse等产品。 2.数据管理领域 【数据研发运营⼀体化】随着数据应⽤场景⽇益丰富带来数据分析需求快速变化,数据⼯程师、数据管理员、报表开发⼈员、运维⼯程师在内的各类数据管理⻆⾊增多,各类数据交付任务难度⼤⼤增加。数据研发运营⼀体化技术(DataOps),是数据开发的新范式。它将敏捷和精益等现代软件开发理念引⼊数据开发过程中,旨在提⾼数据产品的交付效率和质量。通过将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满⾜度等指标作为数据设计、开发和测试的要求,优化数据⽣产者和数据消费者协作效率,并通过标准化⼤数据组件,构建了⼀个⼀体化平台打通数据设计、开发、测试和运维各环节,实现编写代码、⽣产部署、调度监控全过程线上化,引⼊可视化编排、CI/CD等技术降低数据研发技术⻔ 槛,推动数据研发敏捷性,提⾼数据运维质量。 近年来,DataOps已从⼀个模糊的概念成功演化为具体的实践,得到了中国信通院等机构的积极推动。阿⾥云DataWorks、华为云ROMADataOps、腾讯云DataFactory等相关产品和平台的兴起,市场趋于繁荣。 3.数据应⽤领域 【智能增强分析】数据应⽤利⽤数据对各项事务进⾏探索、分析、洞察并最终推动决策,实现数据价值的释放。数据应⽤早已存在于⼈类社会的各项活动中,但随着数据本⾝形态、数据处理技术、数据应⽤需求等的不断演化升级。数据分析⽅法也在此过程中不断丰富,从早期的利⽤Excel等⼯具进⾏⼩规模分析,发展到了通过BI图表可视化分析展现技术的⾛向成熟,再到BI+AI模式的各种探索。智能增强分析技术(AugmentedAnalytics)代表了当前数据分析的智能化升级⽅向。这种技术通过机器学习、⾃然语⾔处理等技术,提⾼数据分析流程中的⾃动化程度,实数分析 ⼯作更加⾼效和准确。尤其是在AIGC(⼈⼯智能⽣成内容)技术的推动下,智能增强分析得到了⼴泛的关注和应⽤,通过实现开发侧的模型敏捷开发、数据智能分析、资源统⼀管理,以及上层业务侧的数据快速查询分析和总结,创建⼀个“所思即所得”的交互分析过程。数据经纬(DataFabric)为智能化的数据分析提供强⼒的智能数据管理⽀撑。其基于主动元数据、增强数据⽬录、数据虚拟化等技术,将庞杂的数据处理系统群之中复杂的数据关系、数据权属等问题统⼀建模,形成⼀套分布式、⾃动 化、智能化的数据管理形式。 近年来,很多业界公司都推出了⾃⼰的智能增强型数据分析⼯具,如微软PowerBICopilot、百度GBI、观远BICopilot等,公有云服务有MicrosoftFabric、AmazonQuickSight。这些⼯具使得数据分析可以通过对话的形式轻松完成,⼤⼤降低了数据分析的⻔槛,使更多的⼀线⼈员能够利⽤数据进⾏决策。 4.数据安全领域 【内⽣安全技术】数据安全问题随着数智化加深⽽产⽣,内⽣安全正成为传统安全防护技术的重要补充。频发的数据泄露、⽹络攻击事件,使得全密态执⾏环境、敏感数据⾃动识别、⾼效数据加解密、细粒度的权限控制、零信任等内⽣安全技术的应⽤不断增加,与传统⽹络安全防护相辅相成。根据IDC发布的《IDCTechScape:中国数据安全发展路线图,2022》,零信任之数据安全、AI赋能数据安全、数据⻛险管理,数据安全基础设施管理平台这些变⾰性数据安全技术将重塑数据安全市场。 近年来,华为云、阿⾥云相继推出全密态数据库,数据在⽤⼾侧(客 ⼾端)加密后,在⾮受信的服务器端全程只以密⽂形式存在,当数据需要被处理时,客⼾端通过远程证明确认服务端运⾏在受信环境、且其内运⾏的代码可信后,将秘钥端到端直接传⼊受信环境,数据和秘钥仅在受信环境⾥被处理,外部⽆法进⼊窃取数据,达到对所有的数据库事务、查询、分析等操作的⽀持。另外,阿⾥云Dataworks加⼊敏感数据识别能⼒,亚 ⻢逊RDS增加内置防⽕墙,这些增强措施进⼀步提升了数据的安全性和隐私保护能⼒。 (三)⼤数据产业演进趋势 在⽤⼾需求、技术发展和政策扶持和推动下,⼤数据产业呈现出快速增 ⻓和多元化发展,包括⼤数据云原⽣化、数字技术外贸化、数据要素资产化、 ⼈机直接交互分析、⾏业场景融合化、运维治理智能化6个⽅⾯趋势。 1.数据存储与计算领域 【⼤数据云原⽣化】⼤数据云原⽣朝着云原⽣数据库发展。云原⽣数据库并不是将分布式数据库未经改造简单地迁移到云上,其以云化运⾏环境为前提,在设计上通常结合分布式技术并普遍采⽤存算分离、⽇志即数据的设计思想,能够灵活调动细粒度的“计算和存储资源”进⾏扩缩容,实现资源池化、弹性计算、集约运维等能⼒,以应对更便捷、更低⻔槛实现云上数字化转型与升级的挑战。例如AP+TP业务的混合处理、弹性+智能的成本控制。随着云原⽣数据库的普及和发展,其正朝向更⾼可⽤性、更强的处理能⼒、更智能化以及更普惠的⽅向发展:⼀是多级⾼可⽤,通过多副本、跨可⽤区、跨地域、跨国域等级别⾼可⽤,实现多可⽤区热活 ⾼可⽤、单个实例跨可⽤区部署。⼆是多级HTAP,基于算法协同,内存计算、存储优化、并⾏处理等技术兼容解决不同规模数据查询加速需求,包括如使⽤内存池技术与AP+TP业务结合,减少⽹络通信开销、提⾼数据 ⼀致性和实现