金融大数据 反诈技术白皮书 2022年12月 完成单位 Company 蚂蚁科技集团股份有限公司清华大学 总策划 Producer 赵闻飙、徐恪、李俊奎 主要完成人 MajorCharacter 王维强、李琦、金宏、张震、任炬、高丽、肖凯、崔世文、洪丹、张天翼、李健雄、张哲、马俊杰、张超、郑亮、朱丛、赵亮 其他参与人 Character 郑霖、刘腾飞、兰钧、吴星、彭凤超、都金涛、许小龙、王宝坤、田胜、付大鹏、刘谦、傅欣艺、应缜哲、谭潇、苗书宇、王宁涛、李志峰、刘京、金小蓉、薛兰青、王可、叶帆帆、徐峰、孟昌华、傅幸、祝慧佳、陈帅、李哲、陈倩华、陈锣斌、王晓东、郭振宇、朱传群、盛闯、尹攀、黄海、孙博文、王兴驰、郭真林、禹航、梁磊、李强、鲁玮 PREFACE 序言 当前以电信网络诈骗为首的各类互联网欺诈行为呈现出多发、高发、多元化的态势,严重威胁着人们的财产安全。与传统的电信网络诈骗相比,互联网时代的电信网络诈骗活动不断利用新理念、新技术来实现新的诈骗手法,并与网络赌博、薅羊毛、互联网洗钱等欺诈行为一起,形成了一条相互关联的黑色产业链,使得互联网欺诈行为的风险识别难度不断增加,风险对抗也日趋激烈。为了遏制和惩治电信网络诈骗活动,我国于2022年12月1日正式实施了《中华人民共和国反电信网络诈骗法》。然而,如何从技术层面有效打击和治理电信网络诈骗仍然面临着极大的挑战。 近年来,随着5G、物联网、大数据、云计算等技术的快速发展与应用,人工智能技术迎来了新一轮的蓬勃发展。在反电信网络诈骗领域,如何通过先进的人工智能技术针对性地识别全链路、团伙化的电信网络诈骗行为是人工智能应用的重中之重。目前,基于人工智能算法的异常检测、多模态融合学习、图神经网络、端云协同等技术已被广泛运用在了电信网络诈骗风险识别中,在事前风险感知、事中攻击检测和事后威胁处置上都表现出明显的性能优势,能够有效提升电信欺诈的检测率及打击力度。 然而,人工智能在反诈领域的广泛应用也 同时带来了新的挑战。人工智能的技术安全程度和应用可信赖程度正逐渐成为反诈场景中的焦点问题,大大加速了可信人工智能技术的研究进度。可信人工智能技术通过将可信算法的指导性原则与人工智能技术相融合,在数据收集和处理、算法设计和实现、运维等多个环节上提升了人工智能技术的可信赖程度,解决了人工智能技术在应用过程中面临的数据隐私保护、算法可解释性、算法鲁棒性和公平性等问题,规范了人工智能技术的应用。 目前,可信人工智能技术在电信网络诈骗领域已经进行了非常多的应用尝试。例如,通过应用隐私计算机制保证算法在应用过程中的数据安全、借助算法可解释性提升模型决策的透明度和公平性、利用对抗生成技术提升模型在风险攻防中的鲁棒性等,这些技术能够显著提升人工智能技术在反诈场景中应用的可信赖程度,极大发挥人工智能技术在电信网络诈骗风险识别中的性能优势,同时有效缓解人工智能技术的“黑箱”特性,对于网络反诈有着重要意义。 本白皮书针对网络反诈的技术挑战、技术架构、关键技术、应用实践等方面展开论述,希望能为学术界和工业界开展面向反诈技术的理论、实践和应用提供参考和指导。 徐恪、李琦、金宏 目录 金融大数据 反诈系统通用框架 01背景 02电信网络诈骗概述 04反电信网络诈骗金融治理 事中攻击检测与防护 37事中风险防控概述 38异常检测 42实时风控 50风险决策 54风险阻断 反诈基础设施 事前风险感知与预测 12反诈基础设施概述 13多维异构超大规模交互图 17可信技术设施和可信基础算法 29事前风险感知概述 30全网威胁探测处理 33全网情报采集处理 事后威胁反制与应对 57事后威胁应对概述 58智能审理方案 60类案检索方案 62威胁知识提炼 实践与案例分析 65事前防控案例-公网反诈信息处置 67事中防控案例-支付宝双十一反诈风控 69事后防控案例-支付宝投诉体验提升案例 金融大数据 反诈系统通用框架 背景 当今,银行业金融机构与非银行支付机构正面临愈发严峻的电信网络诈骗风险。随着互联网技术的不断发展,恶意诈骗分子利用电信网络技术实施诈骗的手段不断升级,其基于新技术与新场景,不断寻找新方法,如软硬件攻击、社会工程学等,实施更具专业化、智能化的欺诈手段,形式上包括诱骗投资理财、杀猪盘、借贷等等。这使得需要防范的欺诈风险案例的数量快速增长,案例的复杂性也不断提升,传统的风控审查以人工的方式进行经验控制,难以应对当下反诈形势。 基于大数据风控的反欺诈技术与体系应运而生,运用大数据方法构建风控系统,对黑产风险行为进行风险预测、阻断、管理、溯源。依托于人工智能、云计算等技术,通过大量庞杂的数据建模的大数据风控能够更加科学有效的提高风控安全能力,同时降低人工审 查成本与交易处理成本,在保障安全的同时提升金融服务的效率,为金融行业保驾护航。 2022年12月《反电信网络诈骗法》正式颁布,国家明确了对电信治理、金融治理、互联网治理三个领域的治理要求。目前市场还未出现一份完整的金融领域反电信网络诈骗的框架搭建规范,本白皮书针对金融风控场景下反诈系统的基础设施建设,以及风险全生命周期反诈核心技术展开了阐述,期待为产业界和学术界开展面向金融反诈的研究、实践和应用提供有益的参考和指导。 预测阻断管理溯源 仿冒类诈骗 骗子假冒客服、公检法、亲友等身份,虚构被害人涉及违法违规行为(比如校园贷、洗钱等)、中奖返利、理赔补偿(如已购产品不合格等)等事实,诱导被害人缴纳各种费用或转账,最终造成财产损失。 杀猪盘类诈骗 骗子以各种交友套路与被害人建立网络恋爱关系,取得被害人信任后,虚构在某平台赌博或投资可以赚大钱的事实,诱导被害人投入资金,最终在发现对方失联、资金无法提现、平台关停等情况时意识到被骗,造成财产损失。 网络交友类诈骗 骗子虚构美国大兵、卖茶女等身份,假装在网络上与被害人进行恋爱交友,以给被害人寄送高价值财务 (美金、贵金属等),在海关被扣押需要缴纳关税等名义诱导被害人转钱,或谎称家族产业(茶叶、白酒等)被亲戚侵占,博取被害人同情,让被害人高价购买商品,最终不发货、货不对板、失联等,造成财产损失。 色情类诈骗 骗子谎称可以提供色情上门服务,诱导被害人缴纳定金、交通费、安全保证金等各种费用,最终对方失联或继续要求转钱,被害人意识到被骗,造成财产损失。 游戏相关商品交易类诈骗 骗子虚构出售游戏账号、游戏装备、代练/陪玩服务等事实,被害人误以为付款后对方会发货或提供服务,付款后对方失联或不发货,造成财产损失。 虚假购物消费类诈骗 骗子虚构出售游戏相关以外的商品或服务等事实,被害人误以为付款后对方会发货或提供服务,付款后对方失联或不发货,造成财产损失。 中奖返利类诈骗 骗子谎称被害人中奖,诱导被害人缴纳定金、税费、保证金等各种费用,最终失联活继续要求转钱,导致被害人财产损失。 电信网络诈骗概述 电信网络诈骗的概念 据《中华人民共和国电信网络诈骗法》【1】,电信网络诈骗,是指以非法占有为目的,利用电信网络技术手段,通过远程、非接触等方式,诈骗公私财物的行为。 电信网络诈骗的常见手段 电信网络诈骗手段多样、隐蔽性高,主要包括以下几种: 兼职刷单类诈骗 骗子谎称可以提供网络兼职刷单工作,被害人误以为可以通过兼职刷单劳务获取报酬,在虚假/正规购物网站、社交软件上被骗子引导缴纳各种费用,最终既没有收到报酬,也没有返回本金,造成财产损失。 信贷类诈骗 骗子谎称可以提供贷款、套现等服务,被害人在虚假借贷网站/APP、社交软件等平台上进行相关操作时,骗子通过后台控制、骗术引导设置障碍,让被害人缴纳各种费用,造成财产损失。 电信网络诈骗的特点 电信网络诈骗行为具有先兆性、群体性、关联性、隐蔽性、动态性等特点。具体如下: 电信网络诈骗 先兆性群体性 欺诈在交易发生前具有一定的征兆。在某次欺诈交易发生前,这个非法账户可能已暴露出一些恶意的特征或已对其他人实施过相同的欺诈。 不法分子数量规模庞大,其往往有属于某个群体,群体内的欺诈者在行为特征、IP 所属地等信息上具备一定的相似性。 关联性隐蔽性 不法分子往往有自己的根据点,这些根据点包括特定的网站、账号等。同一个网站、账号、APP可能由不同的欺诈者维护,同一类型的根据点在使用的图片、文本等内容上也具有一定的相似性。 欺诈手段形式形式多样、隐蔽性极高,一方面,不法分子骗取被害者信任,导致被害者难以在交易发生前识别出对方的意图,最终造成严重的财产损失;另一方面,在交易发生过后,被害者可能依然无法识别骗局,甚至在交易系统提示与干 预过后,仍然选择盲目相信对方。 动态性 随着互联网技术的不断发展,恶意欺诈分子的诈骗手段也不断升级,规避检测能力极高,传统静态的风控模型难以应对不断更新变化的欺诈形式。 金融风控系统 事中阶段 实现攻击检测与防护 金融反欺诈 反电信网络诈骗金融治理 概述 金融机构通过搭建金融风控系统达到反欺诈的目的,保障用户的切身利益。金融反诈需要从问题出发,根据欺诈事件、欺诈分子的特点找寻可靠的反制应对方案。 一方面,根据欺诈的先兆性特点,可知欺诈发生前许多信息(例如舆情信息、站点风评等)对欺诈检测有辅助补充作用。而传统风控方案仅在事中(即交易发生中)进行检测与防护,往往会遗漏相当一部分事前信息,导致判断结果不准确;此外,由于金融领域交易数据量庞大,对实时防控需求极高,因此,需要风控系统具备一定的先验知识,或在交易前对交易双方已有基本的判断。为此,事前(即交易前)欺诈风险的感知与预测十分必要。 事前阶段 实现欺诈风险感知与预测 另一方面,欺诈的动态性与隐蔽性特征表明,尽管事前事中的检测部署层层严密,仍然存在一些欺诈事件被“漏检”和“逃逸”的现象。为此,在事后(即交易后)的威胁反制与应对急需重视。 事后阶段 实现威胁反制与应对 分阶段检测是金融风控需要遵循的上层运作逻辑,而搭建一套完善的金融风控系统还需要解决数据处理与算法设计的问题。反欺诈的三个阶段对数据与算法的需求具有相似性,因此,从数据与算法层面抽象出一套通用的底层基础设施,是整套框架的基石。 不同阶段的需求与挑战 金融行业的业务逻辑庞杂错综,交易发生的各个阶段都存在诈骗风险隐患,因此,需要对基础设施与各个阶段的可能存在的问题与挑战进行分析,总结归纳出每个阶段需要的风控业务和技术。 1.数据层面 金融支付环节产生的数据形式多样关联性强且涉及用户隐私,如何对其进行快速存取和有效表征,需要考虑以下几点: 数据规模庞大 金融支付交易的日吞吐量巨大,庞大的数据量与用户对交易效率的要求成为了金融数据处理的一大问题。 多模态异质数据 金融风控安全场景的主体对象多种多样,包括有支付过程、用户、商户、站点、程序等等,不同对象的数据存在多种差异,例如,一个支付过程包括有聊天记录、收款时间、收款数额、参与用户等信息;构成一个站点、程序的画像信息包括访问历史、访问用户、关联IP、首页截图等等;一个用户对象包含了访问历史、聊天记录、访问内容、行为序列;一个商户对象有商户照片、营业执照图片、收款信息、地理位置等内容。这些数据形式多样,包括了图片、文字、数字、语音、序列等等,如何处理这些多模态异质数据是金融风控安全面临的一大难题。 数据强耦合、关联性大 不同主体之间的信息存在强关联、强耦合的特征,例如,一个用户访问某个站点,其访问记录既是用户画像的构成部分,也是评判站点是否可疑的主要特征。因此,如何将不同主体的不同类型的关联信息以最佳的形式保存、建模,从而保留主体之间的关系特征、并实现跨主体信息补充,也是金融风控需要解决的一大问题。 用户的敏感隐私问题 用户在使用互联网金融服务时,会产生大量隐私数据,如果这些数据被上传至云端,会造成不可估计的后果。因此,出于对用户隐私安全的保护,在搭建框架时,必须考虑敏感数据的存储与处理问题。 数据实时调用的需求