海量数据处理技术金融应用研究报告 北京金融科技产业联盟 2024年1月 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 编制委员会 编委会成员: 何军聂丽琴胡利明周刚慧 编写组成员: 艾轶博 鲍玲 曹骏 陈明 戴大海 郭龙飞 火雪挺 江灏 姜江 靳悦荣 李晨宇 罗俊 杨文龙 刘亚龙 潘熙文 佘万君 唐天辰 王锋 王良杰 王能 许耀栋 徐晓敏 杨景瑞 袁一 张♘ 张敬之 张毅 周飞 周允 编审: 黄本涛郭栋刘宝龙 牵头单位: 深圳市腾讯计算机系统有限公司兴业银行股份有限公司 参编单位: 中国工商银行股份有限公司中国银行股份有限公司 浙商银行股份有限公司飞腾信息技术有限公司深圳市连用科技有限公司北京科技大学 目录 一、发展概况2 (一)法律法规和政策环境2 (二)技术发展阶段及特征5 (三)技术框架与形态9 二、应用情况15 (一)平台建设应用情况15 (二)技术应用情况20 三、主要挑战28 (一)数据存储的挑战28 (二)数据计算的挑战29 (三)云化计算的挑战31 (四)融合计算的挑战32 (五)研发运营一体化的挑战33 四、关键技术与建设思路36 (一)云数一体化36 (二)存算分离化44 (三)数据湖仓化50 (四)计算融合化59 (五)研发运营一体化68 五、发展趋势和展望78 (一)生成式人工智能驱动数据技术方面79 (二)实时数据湖仓方面81 (三)数据网格方面90 (四)数据编织方面93 六、实践案例95 摘要: 海量数据处理是金融业大数据技术领域的关键难点,对金融业海量数据进行高效的存储、计算、分析和运营,将有效帮助金融机构深度挖掘数据的潜在业务价值,实现降本增效。现阶段,金融业在海量数据处理方面呈现出“五化”的技术趋势,即云数一体化、存算分离化、湖仓一体化、计算融合化与研发运营一体化。其中一些新的关键技术已在部分金融机构进行了较深入的实践应用,取得了可观的成果。但是,作为一项复杂的课题,海量数据处理还面临着技术、产品、应用等多方面的挑战和痛点,且这些难题当前尚未进行全面的研究和分析。因此,本报告对海量数据处理的技术、应用、建设等方面进行系统的分析,从行业发展、应用情况、落地痛点以及关键技术等多个维度展开研究,结合我国金融业多个典型案例,论证这些关键技术和实施路径的有效性和可行性,并对一些诸如人工智能、数据湖仓、数据网格等前沿数据技术应用进行初步分析,探讨金融业未来的数据技术发展趋势。 兴业数字金融服务(上海)股份有限公司为本报告的编制提供了支持。中信建投证券股份有限公司、上海汽车集团财务有限责任公司为报告编制提供了行业案例。 一、发展概况 (一)法律法规和政策环境 在金融业早期阶段,数据处理主要集中在银行和证券公司的业务数据处理,以及金融管理部门的监管工作中。相关法律法规和政策主要包括1983年12月8日第六届全国人民代表大会常 务委员会第三次会议通过的《中华人民共和国统计法》,以及1994 年2月18日中华人民共和国国务院令第147号发布的《中华人民共和国计算机信息系统安全保护条例》等。这些法规为金融数据处理提供了基础的法律保障,确保了数据的准确性和安全性。 在信息化阶段,随着信息技术的不断发展,金融业数据处理技术逐渐成熟。在这一阶段,金融业开始将数据处理技术应用于更多的领域,如互联网金融、金融风险控制等。相关法律法规和政策主要包括十二届全国人大常委会通过的《中华人民共和国网络安全法》,以及中国人民银行等十部委发布的《关于促进互联网金融健康发展的指导意见》(银发〔2015〕221号)等。这些法规促进了金融业的信息化进程,为金融业的快速发展提供了有力的支持。 在数字化转型阶段,金融业开始迈向全面数字化。在这一阶段,金融业数据处理技术得到了更广泛的应用。相关法律法规和政策主要包括《关于推进金融科技创新发展的指导意见》(银发 〔2019〕202号)、国务院印发的《关于促进大数据发展的行动 纲要》(国发〔2015〕50号)等。这些法规推动了金融业的数字化转型,使金融业能够更好地适应现代经济的发展需求。 智能化发展阶段,是金融业数据处理技术发展的最新阶段。在这一阶段,金融业开始采用人工智能等先进技术进行数据处理。相关法律法规和政策主要包括2021年6月10日第十三届全国人民代表大会常务委员会第二十九次会议通过的《中华人民共和国数据安全法》、2021年8月20日第十三届全国人民代表大会常务委员会第三十次会议通过的《中华人民共和国个人信息保护法》、中央深改委发布的《关于促进人工智能和实体经济深度融合的指导意见》(工信部联科〔2019〕222号)、科技部等六部门发布的《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》(国科发规〔2022〕199号)等。进一步法规明确了数据使用的安全合规和保护要求,为金融业数据处理技术的发展提供了良好的法律环境,促进数据处理技术的健康发展。相关政策为金融业的智能化发展提供了有力的支持,推动了金融业的创新和发展。 此外,全国金融标准化技术委员会近年陆续发布了《个人金融信息保护技术规范》(JR/T0171—2020)、《金融数据安全数据安全分级指南》(JR/T0197—2020)、《金融数据安全数据生命周期安全规范》(JR/T0223—2021)、《金融大数据术语》 (JR/T0236—2021)、《金融大数据平台总体技术要求》 (JR/T0237—2021)等金融行业标准,为金融数据的处理提供了标准指引。 除了国内的法律法规和政策文件,国际上的法规和政策也对金融业数据处理技术的发展产生了重要影响。例如,2018年5月25日欧洲联盟出台的《通用数据保护条例(GDPR)》和2022年 6月3日美国参议院和众议院发布的《美国数据隐私和保护法》等,这些法规对金融业的数据处理提出了更高的要求,促使金融业不断提高数据处理的标准和质量。 过去一年,全球金融数据处理市场从疫情中逐步恢复,重新进入平稳增长态势,也呈现出一些新的特点:一是从区域发展来看,北美地区仍保持发展优势,东南亚及拉美地区的发展速度最快;二是从业务领域来看,数字货币、绿色普惠、数据安全等是全球各国共同关注的热点,金融基础设施的数字化升级也要求金融科技监管的国际合作水平不断提升;三是从市场主体来看,大型互联网科技企业持续强化金融数据处理市场布局,传统金融机构不断加大数字化转型投入,重回快速增长轨道。 在政策、市场和技术等多种因素影响下,国内外金融数据处理技术发展环境和产业生态都在发生着深刻变化。中国金融数据处理市场在审慎稳妥的监管环境下,市场格局也正在发生改变,传统金融机构在金融科技战略定位上正在从“科技赋能”逐步向“科技引领”转型。大型互联网平台公司金融数据处理业务在监管政策环境下,更加注重科技服务与类金融业务的隔离,类金 融业务加快获取金融牌照步伐,并不断强化自身科技属性,推进核心技术持续演进,推进金融数据处理关键技术与热点应用的规模和范围不断扩展。 (二)技术发展阶段及特征 随着技术的发展,数据的处理从最开始的纸质票据和邮件寄送,到后来的传统数据库、小型机与大型机,到如今的中大型分布式数据存储与计算集群;从依靠掌柜和经理人的经验,到如今分析师和数据科学家们基于数据、算法与算力开展协同工作,实现在风控、反洗钱,反欺诈、反社工,以及信贷、借款、用户画像、网络安全等各个场景的数据价值。 1.从传统数据库到大数据体系的变革 随着数据在金融行业中的深度应用,数据规模的不断扩大,数据类型也不再局限于关系型数据。传统数据库开始在数据处理方面力不从心,业务使用的复杂性增高、数据管理的复杂性变大、海量数据处理的时效性差、成本高。于是,为了应对上述挑战,大规模并行处理MPP(MassivelyParallelProcessing,MPP)数据处理技术开始被使用,以解决数据规模带来的复杂性问题。但是数据规模持续增长、数据表达维度增多、数据类型进一步多元化等问题所带来的复杂性挑战远远超过了预期,数据处理成本高昂和数据类型支持有限变成了新的困难。于是,行业内开始采用Hadoop及其衍生技术作为经典大数据方案来应对新的数据处理挑战,并取得了很好的效果。 2.从处理海量文本到高价值、多维度、多类型特征的转变 随着数据的价值不断被证明,数据工具的利用也从数据科学和数据分析等专业的技术团队逐步延展到业务团队,业务分析与挖掘的需求也更加旺盛。随着需求所对应的数据类型增加,原本仅面向海量文本及结构化类型的数据特性渐渐无法满足业务需求;最终,在保持海量数据处理能力的前提下,逐步向满足高价值、多维度和多类型的数据特征快速演进。 Hadoop体系诞生自互联,是沙中淘金的过程。随着金融业数字化转型的发展,在线业务通常采用SDK等方式进行埋点,数据清洗的无效计算量大大降低;通过数据压缩等方式,在性能影响微乎其微的前提下减少了70%以上的存储空间浪费,但互联网用户仍旧是“沙中淘金”的思路。可转换到行业领域,尤其是金融业,原本的数据纯度就较高,是“金中炼金”的过程,处理过程中更多解决的是单节点无法完成计算的问题,亦或是处理速度不高的挑战;数据之“大”不再是单纯的存储规模,更是计算参与的维度之“多”。 3.存算分离需求的萌芽 数据规模与价值挖掘所需的资源之间,随着时间的推移表现出不同的关系。海量数据处理平台建设之初,所有存储的数据都会参与计算。随着数据价值的变化,参与计算的数据会逐步稳定在一定的比例,更多的数据因为合规或其他需要存储在服务器上但并不会持续参与计算。诚然,这个比例随着场景和策略的不同 而有所不同,例如对于离线数仓的场景来说,3年以上的存储周期,参与计算的数据占总数据存储量的比例大致约为23%左右。随着关联度和热度的降低,这部分数据的计算参与度也会随之降低。而对于行为特征类的数据,热度降低效应则会更加明显。因此,会出现存储和计算所需资源不匹配的情况。 传统的海量数据处理方案也尝试过解决存算分离的挑战,通过将提供存储能力和计算能力的相关组件角色分别部署在不同服务器节点,获得初步的存储和计算分离能力。但这样的方案引入了集群灵活性不足、运维要求高、业务应用容易造成资源耗尽等各类衍生问题与风险,并不适合作为生产环境的最佳实践。 4.易用性优化推动使用难度进一步降低 传统数据库向海量数据处理体系迁移的过程中,遇到的最大挑战便是初代数据处理体系的技术方案中,需要高级编程语言而非SQL语言来操作,这对方案的普适性推广造成了障碍。当SQL语言被全方面地融入海量数据处理体系中后,成本更低,使用更灵活和易用的技术平台才被广泛推入生产环境使用。 如今,海量数据处理平台已深度融入金融业的数据处理过程中,并从分担传统数据库OLAP(On-LineAnalyticalProcessing,OLAP)压力的旁路辅助角色,升级为数据中心中基础设施的核心,作为金融数字化的关键,处理近乎全量数据。而在数据开发与治理的交互方面,在满足高级编程语言支持的同时,尽可能实现支持类SQL兼容语法,以满足从业者快速上手和新旧技术栈快速迁 移的需求,这进一步降低了使用海量数据处理技术的难度,提高易用性,最大程度地帮助从业者发现并利用数据价值。 5.行级别的海量数据近实时更新能力需求 初代海量数据处理体系的技术方案中,为了满足大规模数据规模和读写性能需求,在底层实现中采用了“追加写”的方式,即:无论是数据新增、修改还是删除,在底层技术实现上均表现为写入一条新的数据,在后续构建离线数仓时,再进行有效的数据整理与合并,这样的方案初步解决了传统方案无法处理海量数据的挑战。 随着数据的应用场景越来越丰富、数据价值越来越重要,对数据的时效性要求也越来越高。曾经基于全量数据定时构建离线数据仓库的方式不但资源消耗巨大,在满足时效性方面也越来越受到挑战。因此需要更高效的数据组织方式,将早期方案中粗犷的数据使用与资