金融AIGC音视频反欺诈白皮书 1 版权说明 本白皮书版权属于交通银行股份有限公司、北京顶象技术有限公司、北京瑞莱智慧科技有限公司,并受法律保护。转载、摘编或利用其他方式使用本白皮书文字或者观点的,应注明“来源:交通银行股份有限公司、北京顶象技术有限公司、北京瑞莱智慧科技有 限公司”。违反上述声明者,编者将追究其相关法律责任。 编写组 主编:李肇宁 副主编:钱菲、陈树华、田天 参编人员: 王光中、赵晗、艾国、高峰、魏恪、王继科、史博、宋文利、李煜,刘荔园、萧子豪、刘汉鲁、孙空军、杨金威 参编单位: 交通银行股份有限公司、北京顶象技术有限公司、北京瑞莱智慧科技有限公司 序 早在2018年,习近平总书记就强调要未雨绸缪,加强战略研判,确保人工智能安全、可靠、可控。此后,习近平主席又在多个国际场合倡议“不断提升人工智能技术的安全性、可靠性、可控性、公平性”“引领全球人工智能健康发展”[1]。在此背景下,我国陆续出台了一系列法律法规与政策文件,以加强AI的安全监管和规范应用。2024年7月,二十届三中全会通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》中,特别强调了“完善生成式人工智能发展和管理机制。”“加强网络安全体制建设,建立人工智能安全监管制度。”[2]这是党中央统筹发展与安全,积极应对人工智能安全风险作出的重要部署。为此,国内发布了包括《国家新一代人工智能标准体系建设指南》、《生成式人工智能服务管理暂行办法》和《关于依法惩治网络暴力违法犯罪的指导意见》等多项政策,明确对利用深度合成技术发布违法信息的行为从重处罚。 在金融领域,基于人工智能的AIGC技术的普及带来了显著的创新潜力,但同时也给金融机构的业务安全、客户信任以及系统稳定性构成了新的挑战。特别是音视频领域的AIGC欺诈手段,已经成为金融机构必须面对的重要风险之一。这些欺诈行为不仅损害了金融机构的声誉和利益,更对广大客户的财产安全构成了严重威胁。 AI治理攸关全人类命运,必须采取切实有效的措施,贯彻人工智能安全理念,防范AIGC欺诈,保障金融业务安全。一方面,要加强技术研发和创新,提升AIGC技术的安全性和可控性。通过加强算法研究、优化模型设计、提高数据质量等手段,不断提升AIGC技术的准确性和稳定性,减少其被恶意利用的风险。另一方面,要加强监管和治理,建立健全人工智能安全监管制度。通过完善法律法规、加大执法力度、提高监管效能等手段,确保人工智能技术在金融领域的应用符合法律法规要求,保障金融业务的合规性和安全性。 基于此,交通银行、顶象技术、瑞莱智慧联合编写了《金融AIGC音视频反欺诈白皮书》,通过详实的数据、典型的案例和前瞻性的技术分析,系统介绍AIGC带来的欺诈风险,深入剖析金融机构面临的AIGC音视频风险挑战,并提出AIGC音视频反欺诈方案、技术实现路径及相关倡议,以期为金融机构提升AIGC欺诈识别和防范能力提供有益参考。 相信通过强化合规体系建设,加强反欺诈技术创新,构建全链条健康生态,守正创新携手共进,必将推动人工智能的健康发展,赋能金融高质量发展。 : 交通银行副行长兼首席信息官 目录 序1 第一章AIGC带来的音视频欺诈风险5 1.1AIGC驱动音视频技术创新的同时带来新风险5 1.1.1图像和视频合成技术的发展5 1.1.2音频合成技术的发展6 1.2AIGC带来的“换脸”风险6 1.2.1AIGC“换脸”的技术原理6 1.2.2AIGC“换脸”的主要应用场景6 1.2.3AIGC“换脸”带来的安全挑战7 1.3AIGC带来的“拟声”风险7 1.3.1AIGC“拟声”的技术原理7 1.3.2AIGC“拟声”的主要应用场景8 1.3.3AIGC“拟声”带来的安全挑战9 1.4AIGC“换脸”“拟声”风险的特征9 1.4.1生成内容的高仿真性10 1.4.2内容生成的低成本和高效率10 1.4.3难以溯源的隐匿性10 1.4.4跨模态内容生成与融合10 第二章AIGC音视频欺诈典型攻击方法12 2.1AIGC“换脸”攻击分析12 2.1.1AIGC“换脸”攻击目标12 2.1.2AIGC“换脸”攻击过程13 2.1.3AIGC“换脸”攻击技术14 2.2AIGC“拟声”攻击分析15 2.2.1AIGC“拟声”攻击目标15 2.2.2AIGC“拟声”攻击过程15 2.2.3AIGC“拟声”攻击技术16 第三章AIGC音视频欺诈对金融业务的影响17 3.1增加金融业务风险17 3.2给黑灰产攻击提供新手段17 3.3为防御带来新挑战18 3.4对金融反欺诈提出新要求19 第四章AIGC音视频反欺诈方案20 4.1构建全面防御体系20 4.2技术解决思路21 4.2.1多模态AIGC音视频欺诈的检测技术21 4.2.2多模态AIGC音视频欺诈的鉴定技术23 4.2.3AIGC特征的欺诈团伙识别技术24 4.2.4融合AIGC欺诈的多模态智能决策引擎技术26 4.3从业人员能力的提升28 4.4管理体系的提升29 4.5法律法规护航30 4.5.1针对AI滥用的法规30 4.5.2针对违法者的惩罚31 第五章AIGC音视频反欺诈技术实现32 5.1AIGC音频伪造检测32 5.1.1语音伪造线索32 5.1.2线索建模方式33 5.2AIGC图像伪造检测34 5.2.1图像伪造线索34 5.2.2线索建模方式35 5.3AIGC视频伪造检测36 5.3.1视频伪造线索36 5.3.2线索建模方式38 5.4AIGC欺诈鉴定技术38 5.4.1被动式溯源38 5.4.2主动式溯源39 5.5基于知识图谱的特征关联分析40 5.5.1基于AIGC特征的关系建立41 5.5.2发现与识别团伙欺诈41 5.5.3提升反欺诈的能力42 5.6融合反AIGC欺诈计算引擎的处理系统42 5.6.1数据采集与预处理42 5.6.2特征与规则43 5.6.3智能决策引擎与风险评估43 5.6.4实时响应与行为拦截43 5.6.5业务价值及优势43 第六章典型业务场景45 6.1远程音视频反欺诈45 6.1.1背景45 6.1.2风险分析45 6.1.3解决方案45 6.1.4实施效果46 6.2人脸识别身份认证反欺诈46 6.2.1背景46 6.2.2风险分析46 6.2.3解决方案47 6.2.4实施效果48 6.3伪造人脸考勤反欺诈48 6.3.1背景48 6.3.2风险分析48 6.3.3解决方案48 6.3.4实施效果49 6.4虚假视频聊天反欺诈49 6.4.1背景49 6.4.2风险分析49 6.4.3解决方案50 6.4.4实施效果50 第七章展望与倡议51 7.1未来技术挑战51 7.2相关倡议51 7.2.1健全合规体系52 7.2.2创新发展技术52 7.2.3构建健康生态53 后记55 参考文献56 第一章AIGC带来的音视频欺诈风险 生成式人工智能(AIGC,ArtificialIntelligenceGeneratedContent)技术的迅猛发展,推动了内容生成领域的广泛应用,涵盖了文本、图像、音频、视频等多模态内容生成,为娱乐、教育、营销及各行各业的应用带来了前所未有的创新。然而,AIGC的应用与普及也带来了新的风险挑战,亟需多方监管、加强技术检测与防范措施,确保其在商业应用的安全与透明性,同时加强用户教育以提升风险防范意识。 1.1AIGC驱动音视频技术创新的同时带来新风险 AIGC已逐步渗透至各个应用场景中。其背后强大的技术支撑包括图像和视频的生成对抗网络(GAN)、扩散模型(DiffusionModel)、神经辐射场 (NeRF)等一系列深度学习技术,以及音频合成中的文本到语音(TTS)和语音转换(VC)等技术。这些技术的进步不仅显著提升了AIGC内容的质量和生成效率,也带来了在娱乐、社交、金融等多个行业的广泛应用及新的风险。 1.1.1图像和视频合成技术的发展 生成对抗网络(GAN)。生成对抗网络(GAN)是AIGC技术的基础之一,它通过生成器和判别器的对抗训练,不断优化生成内容的质量。生成器负责创造 出新的图像或视频内容,而判别器则尝试辨别生成内容是否与真实内容相似,从而在不断对抗的过程中提升生成内容的真实性。GAN技术已经实现了高度逼真的图像和视频生成效果,使得深度伪造成为可能。这一技术的应用场景包括人脸替换、虚拟化身创建等,但同时也为伪造视频的生成提供了可能。 扩散模型(DiffusionModel)。随着深度学习算法的进步,扩散模型逐渐 成为AI视频伪造领域的新兴主流技术路径之一。扩散模型通过在噪声中不断增 加与还原信号的过程,能够生成非常逼真的图像和视频序列。扩散模型不仅在生成效果上比GAN更为出色,且生成过程更为稳定,其在细节处理、光影效果等方面的表现尤为显著。这使得扩散模型在高保真视频和复杂场景的伪造方面具有巨大的潜力。 神经辐射场(NeRF)。神经辐射场(NeRF)技术的出现为3D重建与人脸伪 造提供了新的方向。NeRF通过学习光线在3D空间中的辐射强度分布,能够实 现复杂的3D重建和高保真的人脸伪造。这种技术能够将2D图像数据重构为3D场景,并生成逼真的视觉效果,使得人脸伪造的真实感更高。与GAN和扩散模型相比,NeRF更适用于3D场景的模拟与重建,因此其在元宇宙、虚拟现实等领域也具有广阔的应用前景。 当前,以GAN、Diffusion和NeRF为基础的技术路线在图像和视频伪造领域呈现出三足鼎立的趋势。这三种技术各有优势,分别在2D人脸伪造、复杂视频生成、3D人脸重建等方面各显其长。这些技术的不断演进,使得AI视频伪造的质量、速度和逼真度不断提升,带来了更广泛的应用可能性。 1.1.2音频合成技术的发展 文本到语音(TTS)。文本到语音(Text-to-Speech,TTS)技术通过将文本输入转化为自然语音,实现了较高质量的语音生成。这一技术的核心在于如 何使合成语音听起来自然、流畅,并具有一定的情感表达能力。当前的TTS技术可以在短时间内生成高保真的语音,使得虚拟助手、虚拟主播等应用能够轻松模仿真人的语音风格。 语音转换(VC)。语音转换(VoiceConversion,VC)技术是另一种关键 的音频伪造技术,通过将源语音的特定属性(如音色、语调)转换为目标语音 的特征,从而生成与目标人物相似的语音内容。不同于TTS,VC技术在保留语音内容的前提下,能够改变语音的特征,使其听起来更接近目标人物。基于深度学习的VC技术相比早期的统计建模方法,生成效果显著提升,能够更真实地模拟目标语音风格。 风格迁移和语音大模型。在语音伪造领域,风格迁移技术进一步提升了合 成语音的自然度和真实性。通过模拟目标语音的说话风格和情绪特征,风格迁 移弥补了传统语音合成在情感表现上的不足。同时,语音大模型的出现进一步提高了语音合成的质量和效率。如今,仅需少量的音频样本便可生成高质量的语音合成内容,这使得高精度、低成本的语音伪造成为现实。 1.2AIGC带来的“换脸”风险 1.2.1AIGC“换脸”的技术原理 AIGC“换脸”技术,是指利用AIGC技术,通过对目标视频或图像中的某个人的面部进行替换,将其变为另一个人的面部。此技术依托于深度学习框架,尤其是生成对抗网络(GAN)和大型预训练模型,通过大量人脸数据进行训练,以生成高度逼真的“换脸”效果。GAN由生成器(Generator)和判别器 (Discriminator)构成,生成器负责生成与真实数据难以区分的“假数据”,而判别器则负责判断生成的图像真假,二者不断对抗,优化生成效果,最终生成逼真的人脸替换效果。 通过GAN和其他模型的协同,AIGC“换脸”技术能够学习到人脸的细微表情、光线反射、纹理细节等因素,在面部表情变化、嘴唇与声音同步、光影调整等方面取得了极高的真实度。此外,AIGC“换脸”技术的生成过程也因其高度自动化而具备较强的泛化能力,无需过多人工干预便可以实现逼真且多样化的面部替换效果。