数字银行场景安全技术解决方案研究报告(2023年) 北京金融科技产业联盟 2024年9月 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 编制委员会 编委会成员: 聂丽琴傅宜生祖立军 编写组成员: 张弛 薛文哲 门小骅 陈思文 赵晓夏 方宇伦 宋鑫晶 张明虎 卢凯 李勇攀 杜彪 卞凯 董涛 夏雯君 张游 施生燊 张宏 勾志营 王炳辉 陈兴 吴小平 王银燕 黄海燕 李树尉 彭俊宏 陈波 官小波 谢世杰 龚孟旭 王李彧 董杨瑞 孙乐 廖敏飞 吴孟晴 解敏 李裕鹏 施妍萍 郭俊刚 廖静雅 崔正玮 严青伟 陆绍益 丁伟强 李浩 邹长龙 战扬 张艺 李东 竺铁生 袁捷 白慧 方绍全 曾明华 李金银 卢科兵 肖昊 周丹 秦旭果 焦伟哲 牟健君 薛涛 张嘉伟 杨增宇 张宪铎 沈超 陈俊 杜锦文 吴杰 吴承荣 叶家炜 张亮 谢于明 包德伟 魏启坤 曹雅琳 岐文钰 周楠 杨学治 冯国强 编审:黄本涛 刘昌娟 统稿:薛文哲 参编单位: 北京金融科技产业联盟秘书处中国银联股份有限公司 中国工商银行股份有限公司中国农业银行股份有限公司中国银行股份有限公司 中国建设银行股份有限公司 中国邮政储蓄银行股份有限公司中国民生银行股份有限公司 上海浦东发展银行股份有限公司兴业银行股份有限公司 华夏银行股份有限公司 中国光大银行股份有限公司渤海银行股份有限公司 广东省农村信用社联合社复旦大学 华为技术有限公司 深圳市联软科技股份有限公司 目录 一、研究背景1 二、总体研究框架2 三、API异常行为检测3 (一)研究背景3 (二)技术实现方案3 (三)测试结果5 四、场景安全前哨7 (一)研究背景7 (二)技术解决方案8 五、智能化数据分类分级算法14 (一)研究背景15 (二)技术实现方案15 (三)测试结果19 六、数据脱敏效果综合评估体系21 (一)研究背景21 (二)技术实现方案22 (三)测试结果28 七、基于语义分析的开放文档格式隐式水印算法29 (一)研究背景29 (二)技术实现方案31 (三)测试结果33 八、总结和建议34 (一)继续深入数据安全相关技术及标准研究34 (二)数字银行场景安全需要加强管理36 (三)加强自律管理完善标准体系37 附录:数据安全法律规范38 一、研究背景 中央金融工作会议指出做好科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章,强调优化金融服务,防范化解风险,坚定不移走中国特色金融发展之路,推动我国金融高质量发展。数字银行是基于数字技术的金融创新发展模式,通过数据和服务的共享促进跨界协作与场景互联,已成为数字金融发展的重要支撑。在拓宽金融服务渠道、丰富金融服务场景、加速数据要素流动等方面具有得天独厚的优势。既能通过更全面的“数字足迹”为科创企业、绿色企业、小微企业等降低融资门槛、提升融资效率,也能借助无处不在的“全渠道”服务能力将金融服务延伸到老年人、残障人士、农村居民等普惠群体身边,有望在数字经济时代助力金融服务更广泛、更深入地融入经济社会的方方面面。 但数字银行在广泛连接服务提供主体、场景建设主体、交易发起主体等,客观上增加了网络攻击、数据泄露风险点,扩大了风险传导范围,链条上任何一方保护存在薄弱环节都可能危及金融资金安全、信息安全。风险主要体现在以下两个方面。 一是银行侧API安全风险。API是目前数字银行各方互联的 主要形式,随着银行对外开放的API数量增多、传输的数据价值越来越高,银行API已成为攻击者的重点关注对象。如何准确识别API攻击、有效开展API安全防护以规避以上风险,已经成为数字银行安全合规发展亟待研究的课题。 二是应用侧数据安全风险。在数字银行业务中,银行需在用 户授权下与应用方进行敏感数据交互,但通常情况下应用方并不 是持牌金融机构,不具备金融级的数据安全防护、合规处理能力,无法确保数据处理过程符合监管要求。少数情况下,部分应用方甚至将数据分享给其他第三方而造成银行数据泄露,为数字银行业务开展带来挑战、为银行声誉带来负面影响。 二、总体研究框架 面对上述问题,亟需凝聚行业合力共同构建数字银行安全“防火墙”,护航数字银行发展行稳致远。本研究课题旨在研究一系列创新技术能力,保障数字银行的API安全、数据安全,主要包含银行侧的API异常行为检测等安全技术,应用侧的数据分类分级、数据脱敏、数字水印、安全前哨等数据保护技术(如图1所示)。截至发稿,本研究报告涉及的API异常行为检测(内容异常、序列异常)、数据分类分级、数据脱敏、数字水印均已完成原型实现和验证,安全前哨完成技术方案。 配合技术研究成果,目前课题组正同步开展相关技术的标准规范研制(截止本研究报告发稿,已完成《金融API安全防护体系评估指南》初稿)。以标准为基础,银联既可以为相关技术提供检测认证服务,也可以作为数字银行业务的转接方,为行业各方提供可靠的安全技术能力,保证整个交易链路的安全性。 图1总体研究框架 三、应用程序接口异常行为检测 (一)研究背景 从全球银行业数字化转型发展来看,应用程序接口(API)是商业银行探索新金融服务模式的主要方式,第三方通过银行开放的API实现数据共享,基于银行的基础设施、产品和服务,在自身应用和场景中嵌入金融服务,以更好地满足客户需求。然而,银行现有的WAF和API网关等传统安全控制手段由于不了解API上下文并且不以正常的API使用为基准,通常难以对未知的、不可预测的攻击模式提供安全防护。 针对上述挑战,本章节提出基于自动编码器模型的API异常内容检测方法,以及基于注意力机制的双层长短期记忆(LongShort-TermMemoryLSTM)网络模型对API的调用序列进行异常检测方法,商业银行可从原始的用户访问日志中提取用户会话内容与API调用序列,利用下述技术方案训练可靠的异常检测模型,检测用户会话行为是否存在异常,以提升银行开放网关的安全能力。 (二)技术实现方案 1.API异常内容检测模型 使用深度学习模型可以更好地处理复杂的、非线性的数据模式,并能够自动地、自适应地学习数据中的特征,不需要人工预设规则或特征。因此,课题组提出了一种基于自动编码器的API异常内容检测方法。方法利用数据重构的思想设计模型,能自动学习日志参数的压缩表征,并通过正负样本的验证进行分界点的 动态划分,最后根据分界值进行异常日志参数的识别。此外,对于半结构化的日志,本方案采用基于Drain1的日志分析算法生成结构化的日志数据文件和模板文件。方案能有效解决包括但不限于以下异常事件:影子参数、请求方法异常、过度数据暴露等,从多维度保证了系统的稳定性、安全性,帮助提高性能降低风险。模型构建要点如下: 一是基于Drain的日志模板抽取:通过日志切分、分词、序列化、频繁项集挖掘算法、模板合并、日志映射,从大量的原始日志事件中识别出共同的结构,将半结构化日志文件转换为结构化的模板文件。 二是类型粒度的多模态数据表征策略:按照数据的种类对字段进行划分,将连续数值型、离散数值型、文本型的异构字段值统一转换为向量形式。 三是基于自动编码器的自动化压缩表征学习:通过编码器 (Encoder)和解码器(Decoder)将样本数据先映射到低维空间再还原到高维空间,最小化重构误差使模型学习到准确的压缩表征以便更好地捕捉数据的特征和结构。 四是动态分界点划分:构建正负样本验证集,进行模型校验,并根据正负样本的重构误差中间值动态生成误差分界值,从而实现对不同日志定制化的阈值学习。 五是支持流水线自动运行,方案可复用性高:流程全自动化,无需配置,输入日志即可生成模型。支持对流数据的准实时判断, 1Drain指的是一种日志解析算法。Drain算法是一种用于日志分析的技术,它可以将大量的日志数据聚合在一起,并通过归类和过滤来发现错误和异常事件。Drain算法主要分为三个阶段:消息模板提取、消息聚类和消息推断。这个算法能够从原始日志中提取出结构化的模板,并将变化的部分用通配符代替,从而有效地识别和提取日志中的模式和异常 可以在不同行业不同业务的日志中迁移复用。 2.API异常序列检测模型 课题组提出了一种基于自注意力机制的双层LSTM序列异常检测方法。通过对历史日志中API接口调用顺序的学习,模型可以实时检测出日志流中的异常序列调用,有效规避了开发过程中可能存在的未授权访问漏洞危害,让攻击者无法不遵循业务逻辑的调用顺序访问应用,从而降低了调用路径异常的业务逻辑风险。模型构建要点如下: 一是滑动窗口式序列生成策略:将序列按设定的时间窗口划分形成多个子序列,依次输入包含门结构和记忆单元的网络,对序列的长短期信息进行自适应学习。 二是高维表征生成策略,长短期依赖信息动态平衡:将序列按时间步划分,映射到高维空间,通过包含门结构和记忆单元的网络双层叠加效果,高度抽象序列中的深层次特征信息。 三是重点信息自动聚焦:对序列的高维表示采用自注意力机制,即每个接口都需要计算与前后接口的关联度,在一定时间只关注与当前接口更相关的接口,大大增加了捕捉长距离依赖信息的能力。 四是支持手动配置异常容忍度,方案可复用性高:通过配置预测候选集大小可以手动调节异常的容忍度,以上流程程序化,支持不同业务日志的迁移复用。 (三)测试结果 课题组根据以上技术方案开发了原型程序,并在银联沙箱环境中测试验证。首先,选取100028条网关应用系统上正常的用 户访问日志,经过特征提取和会话汇聚后共得到17609个有效的会话记录进行评估,作为正常样本。为了进一步开发和验证模型,使用Postman2对API进行手动攻击测试,模拟包括爬虫、鉴权、SQL注入、APIDdos攻击等API攻击检测场景,将网关上记录到的日志作为异常样本。在这些样本中随机挑选80%的正常样本数据作为训练集,各10%的正常样本和50%异常样本作为验证集、测试集。 根据实际场景需求,基于自动编码器的API异常内容检测模型对单API进行模板挖掘和关键参数阈值学习,从http方法 (get、post)、主机域名(Host)、访问路径(path)、访问参数(urlparameters、postbody)等维度自动学习日志参数,能成功检测未知参数异常、请求方法异常、访问路径异常等内容异常,测试准确率3为99.52%,召回率4为99.28%,F1-score5为99.40%。 基于注意力机制的双层LSTM网络模型基于会话的API序列基线,对一次完整的API会话行为的时间、序列、交互信息进行异常检测,测试准确率为91.045%,召回率为88.4%,F1-score为89.706%。 测试结果显示,课题组研制出的API异常行为检测算法,实现了在API内容数据与调用序列层面识别异常风险,解决传统方式中规则库需要不断更新维护的问题,降低了误报漏报率,能够保障数字银行开放API的安全。 2Postman是一个功能强大的工具,它不仅可以用于API的开发和测试,还可以用于API的安全性测试和验证。 3准确率表示的是所有预测异常中真实异常的百分比,用于衡量模型的查准能力; 4召回率测量的是所有异常中真实异常的百分比,用于衡量模型的查全能力; 5F1-score为查准率与召回率两者的谐波平均值,用于衡量模型的查全查准能力。 四、场景安全前哨 (一)研究背景 在数字银行业务中,银行将数据通过开放API的方式传输给应用方。根据《商业银行应用程序接口安全管理规范》应用安全责任章节要求“应用方不应将通过商业银行应用程序接口获得的金融服务能力与数据以任何方式转移、共享或分包给其他第三方”。为保证数字银行业务合规,商业银行在与应用方开展业务时,应确保应用方有意识和能力履行数字银行数据防泄漏及其他数据安全和隐私保护的要求。 目前各商业银行大多通过协议约定的方式,要求应用方执行数据安全的相关要求,但是银行对应用方的实际执行情况缺少有效审查。