ifenxiO京东云 金融行业 先进AI存力报告 大模型时代,金融行业如何破解先进存力之困? 引言 先进存力是金融行业大模型落地的必答题 2023年,是大模型商业化落地元年。根据《2023爱分析:中国大模型市场商业化进展 研究报告》,2023年中国大模型市场规模约为50亿元,预计2024年将达到120亿元。 大模型表现出的强大的理解、生成和推理能力,让各行各业的企业用户普遍预期大模型将带来巨大甚至变革性的价值,纷纷探索大模型的落地应用。可以预见的是,大模型将引发新一轮AI应用建设浪潮。同时,为了支撑大模型时代的AI应用,企业IT基础设施也 将被重塑。 目录 大模型时代算力“木桶效应”下,存力重要性凸显P01-P05 1.1大模型将带来算力需求指数级增长P02 1.2先进算力存在“木桶效应”,存力是容易被忽视的短板P04 金融行业走在大模型落地前列,AI先进存力面临突出挑战P06-P14 2.1金融是大模型落地领军行业,且重视大模型自主能力建设P07 2.2金融行业需要可用、可信、可控的AI先进存力P09 2.2.1可用:“三高一低”极致性能,提升算力资源利用率P09 2.2.2可信:满足金融行业信创要求,并破解国产硬件性能瓶颈P13 2.2.3可控:成本可控,灵活自主P14 CONTE 典型解决方案: 京东云云海分布式存储系统,助力金融机构大模型落地P15-P23 3.1京东云云海分布式存储产品介绍P16 3.2基于全自研统一底座,为金融机构大模型场景提供AI先进存力P18 3.3典型客户案例:某国有大行基于云海构建存力底座,提升大模型整体能力P20 3.3.1某国有大行基于云海构建存力底座,提升大模型整体能力P20 3.3.2某券商基于云海构建统一云原生存储架构体系,支撑“小微化、高频化”业务新模式P22 金融机构需要统筹规划,推动大模型先进算力建设P24-P26 ifenxi京东云 大模型时代算力“木桶效应下 存力重要性凸显 01 大模型时代算力“木桶效应”下 存力重要性凸显 1.1大模型将带来算力需求指数级增长 在大模型落地过程中,算力、数据和算法是三大支撑要素,而其中算力需求最先迎来爆发。在当前探索可研和试点应用阶段,企业一般从大模型训练和微调入手,而基于大数据量、大规模参数进行的大模型训练,需要消耗大量算力资源。例如,根据OpenAI公开信息,13亿参数规模的GPT-3XL模型,训练一次需要的算 力约为27.5PFlop/s-day(每秒干万亿次运算一天)。 大模型时代,算力日益成为数字经济的新型生产力。随着未来大模型技术向多模态等方向演进,参数量将持 续膨胀,算力需求还将呈指数级增长。同时,传统自建集群、云服务租用等算力供给方式,将在性能和成本 上面临挑战,算力基础设施需要向以智算中心为代表的先进算力进行升级。 02 ifenxi京东云 SEISET DE6E7G56H67I5J6K7L56M86N75O67P565156 大模型时代算力“木桶效应”下 存力重要性凸显 1.2先进算力存在“木桶效应”,存力是容易被忽视的短板 在此背景下,国家政策层面也高度重视算力发展。2023年10月,工业和信息化部等6部门联合印发了《算 力基础设施高质量发展行动计划》(以下简称《行动计划》)。《行动计划》指出,算力是集信息计算力、 网络运载力、数据存储力于一体的新型生产力,强调计算、网络、存储和应用需要协同创新、共同发展。 信息计算力 网络运载力数据存储力 图表1:算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力 值得注意的是,本次《行动计划》高度重视先进存力的建设。主要目标方面,明确提出到2025年存储总量超过1800EB、先进存储容量占比达30%以上的目标;同时,将“强化存力高效灵活保障”列入重点任 务之一,提出了加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展等具体任务和相应 措施。其中,先进存储是指应用全闪存阵列、SSD等先进存储部件,采用存算分离、高密、RDMA等先进 技术,单位容量数据操作能力达到万IOPS(每秒读写次数)以上的存储模块。 在大模型算力建设方面,企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。相比以GPU 为代表的计算力,存力的重要性往往被忽视。但事实上,大模型对算力的要求如此之高,必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。而算力集群存在“木桶效应”,如果存储和网络性能无法支撑大规模数据存储、读写和传输,高性能计算芯片也用武之地,价值将大打折扣,最终影响大模型训练效率。 因此,作为AI算力基础设施的关键组成部分之一,先进存力同样是大模型落地的前提条件。大模型训练等 场景对于存力提出了一系列新挑战,而存力也往往容易成为“木桶效应”中的短板,制约计算力的效能发 挥,成为大模型落地过程中潜藏的风险。 04 ifenxi京东云 ifenxi京东云 02 金融行业走在大模型落地前列 A先进存力面临突出挑战 06 金融行业走在大模型落地前列 A|先进存力面临突出挑战 在AI先进存力建设方面,大模型落地进展走在前列的金融行业面临的挑战具有代表性。 2.1金融是大模型落地领军行业,且重视大模型自主能力建设 金融行业包括银行、保险、证券等,是大模型落地的领军行业,也是《行动计划》中提出的“深化算力赋能行业应用”重点行业之一。根据公开信息,大量金融机构尤其是头部金融机已经开始落地大模型场景应用,并自建大模型能力。 金融机构大模型落地动态 农业银行2023年3月,推出金融行业首个自主创新的金融AI大模型应用ChatABC 工商银行 2023年6月,就基于知识增长的NLP大模型在金融场景的能力研究和应用 然语言大模型产品 建设银行2023年7月,就通用大语言模型产品选型测试项目发布供应商征集公告 招商银行2023年10月发布预训练基础大预言模型(干亿级)项目采购结果公示 招商证券 预先研究及论证大语言模型在量化投研精准营销、财富管理、客户服务、智能投顾人员效能等场景上产生的应用价值 银河证券实现了大模型在证券机构场外衍生品交易场景的应用落地 图表2:部分金融机构大模型落地动态 07 ifenxi京东云 金融行业具备大模型落地的良好条件。一方面,金融机构的数字化成熟度和AI应用成熟度都比较高,因此具 备良好的数据基础、较强的算法技术能力,以及众多潜在的大模型应用场景,为大模型落地提供了坚实的基础。另一方面,金融机构向来重视数字化转型,数字化预算投入较高,且以央国企为主,在大模型算力投入方面具备较强实力和意愿。 根据爱分析调研,金融行业典型的大模型应用场景包括数据分析、智能问答、智能客服、数字营业厅、智能投顾、智能投研、营销内容生成、产品推荐、智能风控等,部分场景已进入试点应用阶段。这些应用场景可以帮助金融机构进一步改善客户体验、提效降本,甚至有机会带来业务重塑的变革性价值。例如,在数字营业厅场景,未来基于大模型支持的数字人具备强大的用户交互和任务执行能力,可以直接帮助客户办理业务推荐产品完成交易,从而创造新的渠道。 能力建设和应用建设是当前企业用户落地大模型的两种主要方式。对于头部金融机构而言,大模型作为变革性技术,需要实现能力内化,因此普遍采用能力建设的方式,在应用场景中优先调用自有大模型,而非直接采购外部大模型和相关应用。为了进行大模型能力建设,金融机构需要训练和部署自有大模型,且模型参数量往往在干亿级。 08 金融行业走在大模型落地前列 AI先进存力面临突出挑战 2.2金融行业需要可用、可信、可控的AI先进存力 在重视大模型能力建设的背景下,金融机构必须构建起坚实的智能算力基础设施,以支撑大模型的高效训练和部署。具体到存力方面,金融机构也面临一系列新挑战,对于AI先进存力的需求可以总结为三方面:可用、可信、可控。 可用 可信 可控 极致性能 信创兼容 成本可控 图表3:金融行业对于AI先进存力的需求 2.2.1可用:“三高一低”极致性能,提升算力资源利用率 大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。尤其是大模型训练环节,其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具备的,因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求,众多头部金融机构开始着手重新规划和建设适 应大模型时代的存力基础设施。 具体来看,大模型的落地可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节,各环节对于存储都提出了相应的性能和功能层面的需求。 09 ifenxiI京东云 训练流程场景特点存储需求 数据来源分散、类型多元、高吞吐,支持海量数据 数据采集 协议多样 快捷导入 与处理多协议数据互通 数据量大海量存储空间 跨系统数据共享与交互,标准POSIX语义兼容, 模型开发数据持续更新支持跨系统数据高效共 享与流动 对大规模数据集进行读取高I/O带宽、海量并行I/O 和并行计算处理,实现高吞吐、低延 时,减少算力等待时间 模型训练数据集以海量小文件为主支持海量小文件高吞吐 高可用性, ·训练易中断,需要容错和支持checkpoint快速保存 快速恢复和加载,减少中断时间 模型上线模型部署验证和快速选代高并发,高吞吐 与运营 图表4:大模型场景对存储的需求 10 金融行业走在大模型落地前列 AI先进存力面临突出挑战 在数据采集与处理环节,需要将分散在企业各个业务系统、数据湖、数据仓库等多种来源的海量数据归集起来进行预处理,这些数据类型多元,协议复杂多样。为了做到数据的快速高效归集以及清洗、过滤、去重等处理,就需要存储系统支持高吞吐和大容量,同时支持多协议数据互通,兼容性好。 在模型开发环节,需要对持续更新的跨系统数据源进行统一、便捷的处理操作,实现数据共享与交互,这就 要求存储系统具备较好的兼容性,支持标准POSIX语义兼容,支持多平台对接如Hadoop、CSI等,以实 现整个数据生态中的数据高效共享。 模型训练环节是整个大模型落地的重中之重,时间周期长、资源消耗大,训练结果直接影响模型的任务表现,对于存储系统的考验也最大。 第一,为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发I/O处理。一旦存储系统无法及时将数据加载到GPU中,就会使得昂贵的算力资源处于等待状态,造成资源浪费和训练周期拉长。在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。因此,存储系统需要具备干万级IOPS、GB级带宽、微秒级延时的极致性能,以提升GPU资源利用率。 第二,大模型训练数据集一般以文档、图片、音视频等非结构化数据为主,呈现海量小文件的特点,即单个文件通常很小,在几十字节到几百kb级别,但文件数量庞大,在几亿到几十亿量级。这就要求存储系统具备强大的元数据管理能力,从而支持海量小文件的高吞吐。 此外,在长周期的训练过程中,由于软硬件系统稳定性和模型调优等方面的问题,大模型训练往往容易出现中断,而训练中断非常影响训练效率。这一方面要求存储系统本身具备高可用性,避免因为存储系统的硬件故障、数据一致性错误等问题出现训练中断;另一方面,也要求存储系统在出现训练中断时,能实现checkpoint的快速保存和加载,快速恢复训练状态,尽可能减少中断时间。 在模型上线与运营阶段,一般需要对模型效果进行评估,并持续快速迭代模型,这同样要求存储系统支持高并发、高吞吐,提高模型运营环节的效率。 ifenxi|京东云 A 金融行业走在大模型落地前列 A|先进存力面临突出挑战 2.2.2可信:满足金融行业信创要求,并破解国产硬件性能瓶颈 在满足以上极致性能要求的前提下,金融机构在先进存力建设中还需要考虑信创适配问题 金融行业在国民经济中地位关键,且央国企占主导,是信创重点行业,在政策要求下正在加速推动信创进程,目前在进行第三期信创试点。