您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[美联储]:CardSim:支付卡欺诈检测研究的贝叶斯模拟器(英)2025 - 发现报告
当前位置:首页/行业研究/报告详情/

CardSim:支付卡欺诈检测研究的贝叶斯模拟器(英)2025

信息技术2025-03-10-美联储华***
CardSim:支付卡欺诈检测研究的贝叶斯模拟器(英)2025

金融与经济讨论系列 联邦储备委员会,华盛顿特区,ISSN19362854(印刷版)ISSN27673898( 在线版) CardSim:用于支付卡欺诈检测研究的贝叶斯模拟器 杰弗里S艾伦 2025017 请引用本文如下:Pleasecitethispaperas 艾伦,杰弗里S(2025)。《CardSim:一种用于支付卡欺诈检测的贝叶斯模拟器》 《tionResearch》,“金融与经济讨论系列2025017”。华盛顿:董事会美联储系统行长们,httpsdoiorg1017016FEDS2025017 备注:金融与经济学讨论系列(FEDS)工作人员的论文是预备材料,旨在激发讨论和批评。提出分析和结论是作者的观点,不表明研究团队成员或管理委员会的同意。在出版物中提及金融与经济学讨论系列(除认可之外)应与作者(们)确认,以保护这些论文的尝试性特征。 CardSim:用于支付卡欺诈检测研究的贝叶斯模拟器 JeffreySAllen 2025年3月 摘要 近年来,支付欺诈率居高不下,随着犯罪分子获取能力增强的生成式AI工具,对创新欺诈检测研究的需要日益增长。然而,此类研究的速度、多样性和可重复性受到公开可用支付交易数据的匮乏的限制。已经开发了一些支付模拟方法,以帮助缩小支付交易数据差距,同时不损害重要的数据隐私和安全期望。尽管这些模拟方法推动了研究进展,但仍需更多工作来生成反映多样和不断演变的欺诈策略的数据集。本论文介绍,一个 一种灵活、可扩展的支付卡交易模拟方法,该方法扩展了现有支付欺诈CCCCCCC建模研究中小但正在兴起的一组模拟器。该模型在调整到公开数据范围以及将支付交易特征与欺诈关联的贝叶斯方法上具有创新性。该模拟器的模块化结构,通过相应的软件包实现,使得根据新的支付趋势或欺诈模式证据更新变得容易。在进行模拟方法阐释后,我演示了如何利用输出结果来测试和评估与支付卡片欺诈检测相关的机器学习工作流程、建模方法和可解释性框架。 关键词:支付卡、欺诈检测、贝叶斯分析、模拟、机器学习 JEL分类:C11C15C80E42 联邦储备委员会。电子邮件:jeffallenfrbgov。我想要感谢联邦储备委员会的SonjaDanburg、ChuanDu、JillianMascelli、KathyWilson、SarahWright、NathanPalmer和GeoffGerdes,以及联邦储备系统的KevinFoster、CurtisKoster、JonathanKuah和JairFilho,感谢他们的反馈。本文中表达的观点仅代表作者个人观点,不应被视为反映联邦储备委员会的观点。 发布了这个研究论文的Python包,实现了仿真方法,并可供公众使用。 1引言 支付卡欺诈一直是消费者、商家、金融机构和政策制定者关注的长期问题。欺诈统计数据表明,自COVID19大流行以来,美国支付卡欺诈显著增长。美国联邦储备银行亚特兰大分行的研究数据发现,2023年,115的信用卡持有者和94的借记卡持有者遭遇了与卡片相关的盗窃或欺诈(FosterGreeneandStavins2024)。这些数字是疫情之前的两倍多。同样,2023年消费者向联邦贸易委员会(FTC)提交的信用卡欺诈报告数量 ,以及存款机构向金融犯罪执法网络(FinCEN)提交的借记卡和信用卡相关可疑活动报告数量,分别比2019年增加了113和75(FTC20202024;FinCEN2024)。1欺诈也是由多数(49的受访者)金融机构风险官员在2023年美联储金融服务局(FRFS )调查中提及的首位运营风险关切,高于网络安全、业务中断和第三方风险(FRFS,2024)。2 人工智能(AI)的发展使得欺诈情况变得更加复杂。一方面,易于获取的生成式AI工具可能增强恶意行为者通过支付系统持续进行欺诈的能力,帮助他们开发并部署更具说服力的欺诈方案(FSSCC,2024;FSB,2024;美国财政部,2024)。另一方面,金融机构和当局广泛使用AI进行欺诈检测、预防和应对(FSB,2017;美联储理事会及其他机构,2021;FSOC,2023;经合组织,2023)。在过去两年中,支付服务提供商宣布了一系列与AI相关的欺诈检测计划(例如,参见:万事达卡,2024;维萨,2024)。 学术研究在支付卡欺诈检测方面也有所增长。WebofScience的搜索结果显示,在过去10年中有316篇关于支付卡欺诈检测的已发表论文。3主要限制欺诈检测研究速度和多样性的因素是缺乏公开的支付数据。支付交易数据非常敏感且具有经济价值。由于数据隐私要求和经济激励,交易数据在欺诈检测研究中的广泛应用自然受到阻碍。一些已发表的论文使用了提供的部分数据片段。 1美国联邦贸易委员会(FTC)的数据未记录2019年的借记卡欺诈报告。 2截至写作时,本报告所引用的2024年年末数据尚未可用。 3基于以下搜索字符串:支付卡OR借记卡OR信用卡AND欺诈检测。 在严格的隐私和安全控制下,由金融机构或中央银行进行的研究无法发布基础数据,这阻碍了研究的可重复性和扩展。许多其他研究使用一组公开可用的数据集。虽然这些数据集在欺诈检测领域促进了重大创新和知识共享,但它们往往过时、样本量小且高度掩盖。这些挑战使得在欺诈模式不断演变的情况下,全面比较机器学习方法变得困难。 模拟已成为克服该领域一些数据空白的方法。尽管它们不是现实的完美体现,并且有其自身的局限性,但模拟可以帮助缓解隐私和竞争方面的担忧。精心设计的模拟器可以快速生成非常大的样本,并且可以修改以反映不断变化的支付行为和欺诈技巧。近年来,研究人员已引入与支付相关的模拟方法以支持支付欺诈检测和相关领域的研究,如反洗钱(AML)(LeBorgne等人,2022;LopezRojas,Elmir和Axelsson,2016;Suzumura和Kanezashi,2021;Altman等人,2023)。虽然这些模拟器已经使广大研究人员能够测试支付欺诈检测的机器学习(ML)模型,但还需要更多工作来构建反映支付系统中欺诈多变动态的方法。 本文通过引入新的模拟方法,扩展了面向欺诈检测研究的小型但正在增长的模拟方法体系。一种灵活、可展的支付卡交易模器,具有三个重要功能。首先,模器的 。4其次,该模拟器利用贝叶斯定理嵌入支付交易特征与欺诈之间的复杂关系。第三,该模拟器高度模块化。几乎每个参数都可以轻松调整,以捕捉不断变化的支付和欺诈趋势。总体而言,这些特性有助于测试用于欺诈检测的机器学习模型的优缺点。该方法在随本文一同发布的软件包中得到实现,可供公众使用。 本文其余部分如下进行。第2节中,我回顾了旨在解决支付交易数据缺口的相关工作。第3节详细阐述了模拟方法,该方法涉及三个关键阶段:制定付款人和收款人特征,运行模拟实验,以及分析实验结果。 4校准源包括《消费者支付选择日记》(FosterGreene和Stavins2024),美联储支付研究(BoardofGovernors2024),以及GerdesGreene和Liu(2018)的支付欺诈研究。 交易模拟器,并使用贝叶斯定理生成欺诈标志。接下来,第4节将介绍一个代表性模拟的结果。在第5节中,我展示了模拟器输出如何被用来测试和评估与欺诈检测相关的人工智能工作流程和建模方法。第6节总结本工作的影响,并确定了未来研究领域的方向。 2相关工作 数据隐私标准和竞争性经济压力阻止了敏感支付交易数据的传播,以供研究目的使用(Altman等人,2023;BIS,2023)。虽然一些研究人员在严格的控制下可以访问金融机构的交易数据片段,但许多人使用一套有限的已发布数据集。Grover等人(2022)列出了用于欺诈检测和相关问题的最常用数据集。他们确定的九个数据集中,有四个与零售支付相关。由布鲁塞尔自由大学(ULB)机器学习小组与支付处理公司Worldline合作在Kaggle机器学习网站上发布的一个数据集(DalPozzolo,2016)是欺诈检测研究的一个流行选择。5 IEEECIS支付交易数据集(霍华德等人,2019年)也被广泛使用。 即使研究人员使用真实交易数据,挑战通常仍然存在。发布的样本通常很小、非当前且被掩盖。这些特性在ULBWorldline数据中很明显,这些数据包含相对较少的、被高度编辑的记录,这些记录是在十多年前进行的。特征变量被缩减为主要成分,以完全掩盖它们所代表的内容。另一个重要挑战是处理不一致或实体特定的标记实践,这限制了可推广性。例如,欺诈标志可能反映了欺诈被检测到之后发生的事情,而不是欺诈的具体发生。6IEEECIS数据具有一个欺诈标签框架,该框架在首次报告欺诈后,将所有与账户 相关的交易标记为欺诈,直到账户被终止或过去120天。7虽然欺诈检测研究从这些出版物的发表中获得了巨大的益处。 5截至本文撰写时,ULBWorldline数据集在Kaggle上以434571个数据集中排名第二的高点赞量。来源: ,于2025年2月16日访问。Kaggle2025“数据集,”httpswwwkagglecomdatasetssortvotes 6标签也可能受到特定司法管辖区的政策影响。例如,某些司法管辖区可能允许更广泛地使用个人信息,如唯一的客户标识符。这可以使客户交易记录在账户详情,如卡号,被终止后仍持续存在。 7关于讨论,请参阅httpswwwkagglecomcieeefrauddetectiondiscussion101203589276 数据集,它们的局限性可能对全面评估依赖大数据集的机器学习模型、调查演变的欺诈模式以及测试新兴的可解释性方法构成挑战。 本文基于最近的一些模拟方法,旨在帮助缩小支付交易数据差距,并支持欺诈和洗钱检测研究。LopezRojasElmir和Axelsson(2016)生成合成移动货币交易,使用来自非洲移动货币服务提供商的真实支付交易基础数据集。Suzumura和Kanezashi(2021)的PPPPPPP是一种著名的基于图的模拟方法,用于将复杂的洗钱类型嵌入支付交易数据中。在此基础上,Altman等人(2023)介绍了,其中包含更复杂的代理 交互于其前身。与似, 中的所有交易模式均基于分布。 许多先前的模拟器是基于代理的模型。hassomefeaturesin 常见的与基于代理模型的模型一样,支付人和收款人之间存在互动。然而,最终,该方法与假定行为恒定的随机微观模拟模型更为一致(Orcutt,1957;Birkin和Wu,2011) 。支付人和收款人在应对 约束条件如账户余额,其行为随时间不变。与许多微观模拟应用相反,该文本并未针对公共政策分析进行调整。 本研究主要基于LeBorgne等人(2022年)开发的方法。与他们的模拟器类似,本研究通过公开的调查和经济学数据来开发付款人档案,并专注于支付卡交易,使用付款人和收款人档案运行每日交易模拟器。然而,其核心方法在重要方面存在差异。值得注意的是,大多数关键模拟参数是从两种方法中使用的相应参数推导而来的,并且这些参数在两种方法中存在显著差异。此外,LeBorgne等人(2022年)在其模拟器中嵌入了三种类型的欺诈类型。8CCCCCdoesnotusetypologieswhichtendtobedeterministictocapturefraudRatheritusesCCCCCBayestheoremandknownpropertiesoffraudulenttransactionstoassociatepaymenttransactionfeatureswithfraudTomyknowledge是 8类型包括:(1)高价值:超过一定价值的交易被标记为欺诈;(2)受损害的商家:在一定时间内,从随机抽取的商家进行的所有交易都被标记为欺诈;(3)受损害的凭证:随机选择的一部分支付者进行的支付中有一定比例被标记为欺诈,持续两周,相应的支付金额按五倍放大。 这是第一个贝