金融机构AI芯片应用情况专题报告 北京金融科技产业联盟 2023年11月 版权声明 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其它方式使用本报告文字、图表或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 编制委员会 编委会成员: 潘润红 编写组成员: 聂丽琴 胡达川 王硕 纪钟 罗方华 徐斌 刘玉海 崔雨萍 伊纯 方科 徐梓丞 王静逸 岳永强 郭贞 陆俊 原菁菁 杜依迪 解培 张彬 李银凤 胡捷 邓玉洁 徐小芳 王景俊 薛亮 白阳 张增金 洪喜如 朱军民 王勇 武凤霞 参编单位: 北京金融科技产业联盟秘书处中科可控信息产业有限公司中国银行股份有限公司 中国建设银行股份有限公司 中国邮政储蓄银行股份有限公司中国光大银行股份有限公司 华夏银行股份有限公司华为技术有限公司 北京趋动科技有限公司 北京易道博识科技有限公司格兰菲智能科技有限公司 目录 1研究意义1 2技术路线4 2.1硬件层5 2.2开发平台23 2.3算力服务24 3产业分析28 3.1产业概览28 3.2国际情况30 3.3国内情况36 4金融应用情况50 4.1应用场景50 4.2机构实践55 5后续工作建议68 5.1形成一批具有金融行业特色的应用系列标准68 5.2推动一批金融行业普遍关注的课题攻关研究68 5.3征集一批适宜开展适配验证的金融应用案例69 5.4研发一批面向中小金融机构的易用产品服务69 5.5制定一批可用性强的国产芯片产品服务目录69 5.6打造覆盖芯片应用全产业链的创新生态系统70 1研究意义 习近平总书记在中共中央政治局第九次集体学习上的讲话强调:“人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”。 近年来,人工智能技术在金融领域广泛应用,主要在信贷审核、智能客服、量化交易、金融反欺诈等业务场景应用落地。近期,人工智能现象级应用ChatGPT在社会中备受关注,再次引起人工智能、大模型、算法、加速卡等概念的热议。人工智能技术的发展对金融行业具有深远意义。 一是交易模式发生变革。在2010年之前客户交易的主要介质为存折、银行卡,以柜台人工服务模式为主;2010年之后以自助设备替代高柜和低柜,并通过远程视频与自助设备结合实现交易达成;2016年手机成为了新一代的交易媒介,移动金融成为主流,指纹、人脸等生物识别技术实现了通过人体生物特征信息与金融账户体系的关联,身份核验服务实现密码替代。 二是数据价值充分挖掘。在2014年之前,凭证和文件信息都是以图像的方式存储在影像平台,在出现问题的时候通过人工检索的模式来收集交易过程信息和证据信息,且收集到的数据和信息分散,没有充分发挥数据价值。光学字符识别(OpticalCharacterRecognition,OCR)技术的诞生将金融机构大量的影像文件信息进行了识别处理,实现自动化分类整理、内容级搜索、概要信息提取、文件合规性审核、归档、统计分析、知识图谱构 建等,将零散的信息整理形成具有价值的数据。 三是客户服务智能化升级。传统的金融客服平台需要大量人力支撑,存在人员压力大、业务培训难、高峰期人员瓶颈、通话数据价值浪费等问题。人工智能等技术的应用使得金融机构客服坐席通过语音识别(AutomaticSpeechRecognition,ASR)、语义理解、语音合成(Text-To-Speech,TTS)、语音克隆、智能导航等人工智能的应用,实现了电话营销、电话邀约、智能催收、电话回访、语音通知等各场景的智能化升级。 人工智能应用的成功离不开强大的算力能力支撑,如果说算力是人工智能的“发动机”,那么AI芯片就是人工智能的“火花塞”。当前金融行业AI芯片应用存在难题。 一是AI芯片供需不平衡。一方面,随着生成式人工智能、大模型、隐私计算、大数据等技术的应用逐渐向成熟化和商业化发展,带动了算法公司、应用方等产业各方对AI芯片及服务器投入,尤其是高端芯片的需求不断增长,超出了原有AI芯片的供给能力。另一方面,国内在高端芯片制造方面还存在不足,而一些非市场性因素又限制了国内机构采购国外高端芯片的渠道,导致国内机构面临AI芯片采购难的问题。 二是AI芯片应用成本高。一方面,AI芯片的应用不同于消费级显卡以及零售客户对芯片的需求,金融机构单次采购量少则几十、多则几百,而目前供不应求的市场关系导致AI芯片单价居高不下,大量采购提高了应用成本。另一方面,AI芯片自身也在持续创新和技术进步,随着金融产品和服务的迭代创新,对性 能和效率更高的AI芯片更新需求也在不断增加,导致机构持续投入成本上升。 三是异构芯片池化管理不完善。随着人工智能产业的蓬勃发展,不同厂商、不同型号的芯片陆续发布;同时金融机构也开始测试不同芯片性能,开展芯片领域信创工作。目前存在异构芯片的资源池化管理和资源的远程调用能力不完善、AI算力资源利用率不高等问题。 四是信息安全面临挑战。金融业是数据密集型行业,信息安全不仅关乎金融用户的资产安全和隐私保护,还关系到国家金融系统的安全稳定运行。国产芯片符合我国加密算法相关标准,产品经过安全性测试和认证,与金融机构技术架构开展适配性验证,从硬件、算法等方面保障金融机构信息安全。 综上所述,人工智能的发展对金融行业产生了变革式的影响,极大提升了金融服务实体经济的智能化和数字化水平。研究并解决当前金融机构AI应用“卡脖子”、应用成本高、算力资源管理效率低下、信息安全等现实问题,有助于满足金融机构对于AI芯片硬件安全可控、供应链可持续、产品高性能等需求,对金融业高质量发展具有重要价值。 2技术路线 为什么AI芯片被视为人工智能应用的重要基础,CPU是否可以承担相应的工作任务?CPU作为中央处理器,最擅长的是让各计算指令在串行模式下一条接一条的有序执行,但是在诸如深度学习等人工智能场景下,并不需要太多的程序指令,而是需要海量数据运算,此时CPU就无法满足需求。而诸如图形处理器(GraphicsProcessingUnit,GPU)等AI芯片具有高并行结构,在处理图形数据和复杂算法方面拥有比CPU更高的效率。 AI芯片主要包括GPU、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(FieldProgrammableGateArray,FPGA)、专用领域架构(DomainSpecificArchitecture, DSA)处理器等类型。 表格1不同AI芯片技术路线对比 平台 性能 资源效率 灵活性 软件生态 CPU 单核性能强,但核心数较少 CPU硬件加速效率最低 指令集最健全,编程灵活 广泛应用,软件生态庞大且成熟 GPGPU 并行计算性能相较CPU大幅提升,比DSA/ASIC有较大差距 高效集成数千至上万个高效率小核,以及数百个AI加速核,资源效率很高 本质是众核并行,指令集丰富,通用性强,AI算子编写具有很高的灵活性,编程相对简单 1.由于GPGPU有极强通用性,主流的和新出的AI算子和框架都基于GPGPU实现,AI生态较健全2.硬件产品升级后,计算框架容易向后兼容,GPGPU软件生态可持续维护 ASIC 针对特定场景定制,无冗余设计,理论上有极致的性能。受限于设计复杂度,难以超大规模设计 理论上最高的资源效率,但不可避免存在功能超集 1.功能逻辑完全确定,通过配置方式调整功能2.不支持AI算子编写 不同领域及不同厂家的ASIC实现都存在巨大差别,且都需要特定驱动程序,软件生态不完善 FPGA 针对特定场景定制,无冗余设计AI AI算法硬件定制,资源利用效率取决于算法设 灵活性较ASIC和DSA高,但是AI算法设计难度大, 需要针对具体AI算法或应用进行定制化设计和开发,软件生态不完善 算法和应用,计算性能高 计水平和实际需求 需要大规模开发团队 DSA (如NPU、DSP 等) 接近ASIC的性能,由于一定程度的软硬件解耦,能够实现较大规模设计 1.在AI算子与DSA指令集高度适配情况下,DSA资源效率很高,甚至接近ASIC2.在AI算子与DSA指令集不适配时,算子性能表现很差,甚至 支持少量指令,算子编写难度大,需要强大的编译器,把算法映射到特定DSA架构;相比ASIC,具有一定的可编程性 1.软件生态不成熟,主要是自研框架2.对主流计算框架不支持或支持度十分有限3.AI算法及框架层出不穷且更新频繁,DSA无法及时支持或无法支持,无法构建持续的AI软件生态 无法适配 2.1硬件层 AI芯片发展主要路线包括GPGPU、NPU等。 2.1.1GPGPU路线 GPGPU是并行计算加速卡技术架构,兼顾并行计算性能和编程通用性,基于该架构的CUDA(ComputeUnifiedDeviceArchitecture)支撑起了由数百个AI软件工具构成的开放AI软件生态。 (1)技术实现 GPGPU作为运算协处理器,具有高效并行性、高密集运算、超长流水线等技术优势,并可以针对不同场景的需要,增加专用向量、张量、矩阵运算指令,提升浮点运算的精度和性能,整体提升GPU的技术性能。 1)整体架构 典型的GPGPU架构的核心部分为可编程多处理器,其核心部分包含了众多可编程多处理器,每个可编程多处理器又包含了多个流处理器,可以支持整型、浮点、特殊函数、矩阵运算等多 种不同类型的计算。GPGPU通过PCI-E总线与CPU处理器进行通信,其存在的目的是为了对程序某些模块或者函数进行加速。GPGPU是原硬件系统的一个扩展,接受CPU调度指挥,其硬件构造由计算单元、内存控制器、线程调度器等组成。同时借助特定的互连结构和协议,在一个主机系统PCI-E总线上可以使多个并行的GPGPU与CPU进行互连,这使得一台主机的算力具有可扩展性,合理的组织多个GPGPU可以获得更好的加速效果。 图1GPGPU整体架构 GPGPU里有多个计算单元,每个计算单元使用多个单指令多数据(SingleInstructionMultipleData,SIMD)单元,每个SIMD单元里又有很多加减乘等流式计算部件,GPGPU可以有众多流处理单元,因此其吞吐量非常高,如果任务有足够的并行性,GPGPU可以更快完成。 GPGPU有相对完整的缓存系统,为数据的重用提供了便利,减少了开发者手动控制的难度,提升了开发效率。缓存系统虽然对用户是编程透明的,但极致性能优化时也有一定的影响,需要考虑数据排布和读取方式等优化方法来提升缓存命中率。GPGPU有可共享的全局内存单元,用于存储计算单元计算时所要访问的数据。 当CPU接受到数据传输指令即将数据拷贝到GPGPU时,直接内存访问(DirectMemoryAccess,DMA)单元来接管这一过程,当CPU转交这一个控制权后可以继续执行后续指令。DMA传输不能保证读取数据时,数据一定是传输完毕的,所以在应用中需要通过查询传输是否完成来保证数据使用的安全性,合理的使用DMA可以提高程序的并行度。 ①计算核心 SIMD架构是计算单元的计算核心部件,可以访问寄存器文件,当GPGPU进行并行计算时,线程会被分配给计算单元。计算单元包括矢量计算单元和标量计算单元,其中矢量计算单元主要用于复杂计算,而标量计算单元主要用于地址计算、分支跳转等。当多线程同时启动时,会出现同一个计算单元被多个线程共用的情况,在使用时需要考虑资源的分配情况,合理的将线程进行分配。 ②存储核心 GPGPU的寄存器数量相较CPU更多,寄存器的访问等待时间比较短,因此在进行密集计算时,可以将常用的数据保存在寄 存器中,减少数据读取的开销。而不同线程之间也可以通过寄存器来进行数据的交互,因此数据读取延迟就可以通过多个线程来回切换进行掩藏。GPGPU还提供了多种类型的片上存储空间,如L1数据缓存、共享内存等。其中,共享内存作用是数据重用,线程可以通过计算单元上的共享内存