AI智能总结
高阶智能超高韧性敏捷高效安全可信极致体验forprevie 编委会 顾问王雷赵志鹏陈林刘建宁程剑冯马俊饶争光何维治王武伟赵少奇王辉左萌李武东何亮杨加园殷玉楼文慧智张雪峰徐前锋伍连和陈波 副主编许永帆李牧天张帆 编写成员李灵帅李进夏欢叶佳伦沈文睿戚仁富王王世媛崔洪斌张宵刘旭辉 版权声明 版权所有华为技术有限公司2024。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。prev 商标声明 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 序言 星河N金融网络 如今,我们已经站在第五次工业革命的门槛上,不同于之前的任何一次工业革命,第五次工业革命以5G、云、AI为代表的数字技术正不断突破边界,实现跨越式发展,一个波澜壮阔的智能世界正在加速到来。 华为预测,到2030年,全球联接总量将突破2000亿,全球通用计算算力将达到3.3ZFLOPS(FP32),A/计算算力将超过105ZFLOPS(FP16),增长500倍。算力=单芯片算力×集群规模×算力效率×算力可用率,网络则是将算力有机联接起来的智能世界的基石,网络的使命就是提升算力效率和算力可用率,从而最大程度释放算力并灵活输送算力。 金融行业正逐步进入Bank5.0智能化时代,用AI激活金融创新、风险管理、投资管理、交易监管、客户服务等方面的巨大潜力,这需要不断攀升的海量算力以及新一代网络作为业务底座。在数据中心,一网承载通算、智算和存储,通过提供高运力网络赋能金融大模型训练和推理。在广域,网络需实现弹性超宽,把AI算力高效可靠地输送到各级金融机构和网点。在园区,要实现一网多用,保障算力随时随需获取和VIP金融业务的极致办公体验。在网络安全,需保障各级金融机构数据和算力流转的极高安全。新一代金融网络的核心是在规、建、维、优生命周期内全面智能化,从而进一步激活金融业务的智能化。 基于上述使命,华为打造了面向智能时代的新一代金融网络一华为星河A/金融网络。如同星河联接无数繁星,组成浩瀚宇宙,星河AI网络智联万物,充分释放智能和算力,加速金融行业智能化转型,跃升数智生产力。 以网强智以智健网网智共生 华为数据通信产品线政企领域总裁 目录 1金融数字化和智能化演进对网络的诉求01 2高阶智能,加速金融行业迈向Bank5.003 2.1星河A/智算网络,释放金融A/训练海量算力032.1.1金融行业AI大模型应用正走深向实032.1.2金融智算网络需要大规模、零丢包、高吞吐、全自智042.1.3星河A/金融智算网络方案释放AI时代高算力042.1.4成功案例:星河A/金融智算网络助力某客户大模型训练性能提升16%~23%062.2A赋能网络,打造智慧金融基础设施072.2.1黑科技1NetMaster网络大模型,让运维更智能072.2.2黑科技2:智能未知威胁检测,让数据更安全072.2.3黑科技3:Wi-Fi7动态变焦天线A/智能漫游,让体验更流畅082.2.4黑科技4:AI算法与架构双创新,让投资更绿色08 3超高韧性,助力金融容灾无忧,业务永续60 3.1金融安全规范对数据中心网络的可靠性提出更高的要求093.2传统金融网络存在容灾能力弱、可靠性可用性不足等问题103.3星河A/金融数据中心网络方案,极大提升网络容灾能力和可靠可用性103.4成功案例:华为助力Z银行构筑敏捷弹性、高可用的新一代云数据中心网络12 4敏捷高效,实现网络自动驾驶13 4.1网络数字地图助力金融产品敏捷开发,提升金融业务上线效率134.1.1金融业务的快速选代,对网络运营提出了更高要求134.1.2越来越频繁的网络变更,网络运维判不准、看不全、看不清、耗时长134.1.3华为率先在业界推出网络数字地图,推进金融网络运维智能化144.1.4成功案例:华为网络数字地图助力X银行网络拓扑准确率99%,业务上线时间从周缩短到天154.2金融广域网络“IPv6+”全面部署,保障金融客户多地多中心灵活高效互联16 4.2.1金融业务数字化高速发展,对广域网络服务质量提出了更高要求164.2.2传统金融广域网面临着扩容成本高和部署慢的问题174.2.3华为“IPv6+”智能云网方案实现多地多活云网协同、智能调优和差异化服务184.2.4成功案例:华为SRv6智能调优方案,助力Y银行带宽利用率提升20%19 5安全可信,保障金融业务安全21 5.1金融智能安全防勒索,多层防护构筑坚固堡垒215.1.1勒索攻击愈发频繁,金融业务长时间中断风险激增215.1.2勒索病毒干变万化,传统网络安全面临新挑战215.1.3华为安全防勒索技术,构建基于完整攻击链的全网防护体系225.1.4成功案例:华为构建领先的多层保障体系,打造安全运营环境235.2金融终端安全无感接入,防仿冒防私接235.2.1各类物联终端广泛应用,提升金融业务效率的同时,带来安全隐患235.2.2海量终端联网,对网络安全提出更大挑战24llew5.2.3华为终端安全无感接入技术,实现终端防仿冒、网络防私接245.2.4成功案例:私接秒级检测与阻断,保障金融网络安全26 6极致体验,打造场景化智能网点27 6.1金融服务嵌入到日常生活中,金融网点加速场景化转型276.2海量智能设备引入,对业务体验和连接安全带来新的挑战276.3华为Wi-Fi7和SD-WAN,支持终端高密安全接入、分支灵活互联、业务体验保障286.4成功案例:华为高品质园区和智能SD-WAN方案,助力A银行打造面向数字时代的智慧网点30 7写在最后31Onlyforprev 01金融数字化和智能化演进对网络的诉求 银行数字化在经历了Bank1.0到Bank4.0之后,开启了向智能化演进的Bank5.0时代。第一个波次(Bank1.0到Bank3.0)聚焦提供线上线下一体化、实时稳定的金融服务;第二个波次(Bank4.0)聚焦构建平台+全场景生态的商业模式,银行重构其现有业务变得更开放,与生态伙伴的服务紧密结合;第三个波次(Bank5.0)聚焦重新定义个性化产品和服务,优化运营效率,制定更精准的投资策略。在整个业务流程里深度应用大数据和人工智能,如下图所示。三个波次在并行演进,以AI为标志的智能化对金融业注入了强劲的创新力,不仅提升了银行的竞争力,也为客户提供了更优质的金融服务,驱动了整个金融生态系统的变革。 智能化转型深层次驱动力是银行如何更好、更高效地服务客户,更快地推出新产品和管理风险,转型成以客户为中心的数字化经营、平台+生态的商业模式。数字化经营的银行通常将月活跃用户(MAU)和日活跃用户(DAU)指标设定为关链KPI,数字化分析用户行为,不断提升用户体验:通过实时数据采集和分析进一步反哺业务产品设计:数据成为经营决策的主要依据:AI也逐从客户服务等辅助领域进入到到营销、风控等核心业务额域。 伴随着银行的智能化转型,IT投资方向也发生了变化,RuntheBank(维持基本面,保持银行运行)的投资在逐渐减少,越来越多地投向Transform theBank,提升智能化水平(也称ChangetheBank,以云、大数据、AI等新技术再造IT系统),对外服务的业务部门更加聚焦用户体验,对内服务的科技部门构建起各类能力平台,并将组织的能力沉淀在这些平台上,使得全行的业务、科技、运营等各部门能够便捷、高效、自主地使用这些能力。在这个过程中,科技部门从以往被动响应业务需求的角色,逐渐转向主动驱动整个转型过程。 在银行的上述转型过程中,业务韧性无比重要,关注单个系统的韧性转变为关注用户旅程韧性,韧性必须被重望。金融机构需要具备稳健韧性的数字基础设施、敏捷弹性的平台能力,可迅速选代金融产品,提供安全可靠的持续服务,以应对用户需求的日新月异。 华为提出了金融韧性基础设施目标架构“4Zeros”,包括:ZeroDowntime高可用、ZeroWait极致体验、ZeroTouch高效运维和ZeroTrust可信安全,这四个“Zeros”不是裂的能力,而是需要云、数据库、数据中心、广域网络和分支网点,云网存算跨域协同,形成端到端的韧性体系。网络是连接韧性技术设施各组件的核心枢纽,我们认为金融目标网络演进架构为:高阶智能、超高韧性、敏捷高效、安全可信、极致体验。 02高阶智能,加速金融行业迈向Bank5.0 2.1星河AI智算网络,释放金融AI训练海量算力 I2.1.1金融行业AI大模型应用正走深向实 ChatGPT引爆人工智能产业,金融行业进入了生成式人工智能时代,AI训练模型正在从万干小模型走向百模干态的大模型。金融业是数据密集型、知识密集型行业,同时又是科技驱动型行业,具备良好的数字化基础,是大模型应用落地的最优行业之一。金融业务要提供更加便捷、快速、安全的服务体验,最重要的措施之一是运营智能化,也就是将A/能力与金融业务场景深度结合。 当前,金融行业大模型的发展正在跨越拐点,从“预测推断”走向“内容生成”,在金融创新、风险管理、投资管理、交易监管、客户服务等方向发展迅速。 为了吸纳海量的知识和业务数据、适配复杂的业务场景,金融大模型的参数量节节攀升,随之而来的是对算力的蓬勃需求,这使得金融智算中心AI服务器规模不断增长,正从干卡走向万卡。 厂2.1.2金融智算网络需要大规模、零丢包、高吞吐、全自智 与基于TCP/IP的通算网络不同,AI智算网络使用RoCE,接入带宽高达200GE/400GE甚至更高。网络万分之一的丢包,算力变九成,千分之一的丢包,算力变七成。因此金融智算网络必须独立建网,其核心要求是:大规模、零丢包、高吞吐、全自智。》 挑战1一规模不足:现有智算网络架构复杂,建网成本高,扩展性不足,导致算力受制约 智算网络作为智算中心的骨架,一方面要适配A/集群规模,另一方面需要平衡成本、效率、可扩展性。某智算组网方案,在400GE集群规模大于2048卡时,需要3层组网,拉高了建网成本,增加运维复杂度。另一种2层架构方案,最大只支持4000张算卡互联,无法规模升级和演进,算力受到制约。金融智算网络既要架构极简,又要可持续向万卡演进。》 挑战2一吞吐不足:网络负载不均,整网吞吐不足50%,算力无法充分释放 金融AI训练过程中,网络流量的特点是:周期性、单流带宽大、流数量少,整体训练性能受限于最慢的流。传统的网络负载均衡基于逐流Hash,在Al训练时极易出现Hash不均,既有的链路满吞吐甚至拥塞丢包,有的链路却空闲,而0.1%的丢包会造成AI训练吞吐下降50%,导致A训练时长超预期,付出更多训练资源成本和时间成本。《 挑战3一部署能力不足:网络部署效率低,开局耗时上月,导致金融AI应用上线晚 智算网络规模随算力集群规模不断增长,导致网络部署难度大、效率低、易出错。以干卡集群为例几十合接入交换机需人工逐台手动配直,还需与计算、存储系统进行多项参数的反复对接联调,部者至少耗时一个月。平均6%的连线错误和人工排查又进一步延长了部署时间。网络部署效率低,导致A训练启动时间晚,不利于金融A/应用的敏捷上线。》 挑战4-可靠性不足:网络故障定位时间长,导致AI训练选代过程有40%时间被迫中断 A训练系统涉及计算、网络、存储的软硬件之间的复杂交互,训练过程中极易出现各类异常,导致训练频繁中断。某大行的某次A/集群训练时长90天,期间出现110+次故障,其中网络故障25次,占比达到22%。网络出现故障后,只能通过二分法排查,一排查就浪费半天,在此期间计算集群无法正常工作,导致A训