迈向智能世界白皮书2024 数据存储 数据是数字化到数智化成功转型的关键要素 构建万物互联的智能世界 序言: 人类出现在地球上,已有数十万年的历史,但人类文明真正的高速发展时期也仅仅是最近几千年的时间。这里最关键的是纸张的出现,使得人类可以记录经验和知识,并借助纸张进行群体分享、学习、演进、发展,直接促进了人类社会文明的高速发展。值得一提的是,以前在中世纪欧洲采用羊皮进行重要文字的记录,当时一本书上千页,需要数百张羊皮来制作,是十分复杂和昂贵的,不利于知识的记录和传播。 在人们发明以数字化形式保存和传播信息后,人类进入数字时代,而数字化形式的信息则被称为数据。因为数据可以被高效处理,这促进了数据爆发式增长。而数据存储作为保存数据的载体,如同新时代的“纸张”,开始加速人类文明的跃迁。我们是新时代的数据存储缔造者、完善者、创新者,制造出面向数字化世界的“新纸张”。 缺数据,不AI。伴随着AI大模型持续成熟并走向多模态,数据逐渐成为AI的关键,因为AI是以电脑模拟人脑的思考方式、从海量数据中发现规律、总结知识,再将这些知识融入不同的业务场景,生成业务咨询师、编程机器人、智能客服等,让它们拥有自主学习的大脑并实现自我进化。人工智能角逐的决胜因素是数据的产生、保存和使用。 华为公司在数据存储产业上的大规模投入超过十五年,产品已进入全球超过150个国家和地区,广泛服务于金融、运营商、政务、制造、电力、能源、医疗、科研教育、交通等多个行业,在全球拥有超过26,000家客户。通过与业界专家、客户和伙伴深入交流,我们编写了《迈向智能世界白 皮书2024-数据存储篇》白皮书报告,结合数字化、智能化,展望数据存储在各行业中的发展趋势和挑战,并提供行动建议。我相信这是一次有意义的探索,将凝聚更多的产业力量共同推进数据存储产业的发展。 过去三十年,新技术、新应用不断涌现,产生了海量数据。数据存储为这些数据提供了一个温馨的“家”,帮助这些新技术、新应用持续成长。华为数据存储产品线愿与社会各界更加紧密携手努力,汇聚产业力量,为更多新技术、新应用提供先进数据存力,共创数据存储美好未来。 周跃峰华为数据存储产品线总裁 CONTENTS 目录 序言I 目录1 执行摘要4 一 01数字化快速走向数智化6 1.1金融7 1.2运营商10 1.3政务13 1.4制造15 1.5电力20 1.6科研教育23 1.7医疗26 1.8行业数智化:数据是关键29 CONTENTS 二 02数据为纲:行业数智化呼唤高质量数据和高效数据处理 2.1数据觉醒:充分发挥历史数据价值33 2.2数据生成与合成:让数据为数智化而生35 2.3数据效率:以高效数据访问使能高效数据处理,加速行业数智化39 三 03数智化时代数据基础设施展望 3.1基于存算分离架构的AI-Ready数据基础设施42 3.2全闪存助力高效数据处理49 3.3存储内生安全成为基本需求52 3.4AI数据湖使能数据可视可管可用54 3.5训/推一体机加速AI大模型落地行业应用60 执行摘要 规模定律(ScalingLaw)揭示了AI人工智能在当前深度学习算法框架下,算力和数据之间的关系:更强的算力加上更多的有效训练数据,可以得到更好的AI大模型。在规模定律的支持下,AI大模型由单模态走向多模态,同时大模型能力和性能持续提升,这帮助了AI逐步走出中心训练、走向千行万业并得以应用,从办公辅助逐渐走向生产决策,从降低成本逐步走向增加效率,从管理当下逐渐走向预测未来,从高容错场景逐渐走向低容错场景,不断引发各行各业智能化转型和业务变革。在这个过程中,人们逐渐发现,进一步深化并加速业务数字化转型、以产生数量更多、类型更丰富的高价值数据,其重要性对于AI而言,不亚于唤醒历史沉睡数据。数字化和智能化以数据为纽带,相互促进、加速和融合,逐渐走向两者相结合的数智化,这对数据基础设施提出了新的更高要求,不断驱动着数据基础设施的演进。 数智化将持续高速发展,并将实现通用人工智能,帮助人类进入一个全新的智能世界。面向未来,我们对数智化必不可少的数据基础设施进行如下展望: 1 AI大模型走向多模态,算力集群规模和数据规模持续增长,只有算力和存力协同演进、算存比可基于AI发展进行灵活调整,才能有效降低系统管理难度、助力AI在实际业务场景发挥不可替代的作用。 2 在AI大模型训练阶段,伴随AI算力集群规模增长,相邻训练中断的间隔时间越来越短,这带来了更加频繁的Checkpoint存档,也带来了更加频繁的断点续训,亟需加速数据访问性能以快速完成Checkpoint的保存于加载。与此同时,智能化升级也在加速数字化转型,进而产生更多的业务数据,增加了数字化基础设施处理数据的复杂度和压力。 3 智能化升级过程中,一方面加速了数字化转型,产生更多高价值业务数据,另一方面降低了黑客门槛,让勒索攻击更加频繁。 4 伴随AI算力集群规模增长,对海量多源异构数据的高效管理逐渐成为AI赛道的关键竞争力。数据地图绘制、数据归集、数据预处理等工作,是AI大模型训练首当其冲的要务。 5 千行万业在尝试将AI落地到行业应用的过程中,发现面临基础设施部署、大模型选择、二次训练和监督微调等方面的困难。复用基础设施厂商和AI大模型厂商的能力,成为千行万业快速落地AI的关键。 面向以AI大模型为代表的企业智能化新应用,新的数据基础设施架构也正在逐渐形成。为了构建AI大模型时代最佳的数据基础设施,我们建议: 1 重视存算分离架构的灵活性和独立扩展,利用存算分离架构有效简化智算集群管理、让计算和存储分别按需扩展;关注横向扩展、性能线增、多协议互通等数智化时代数据基础设施基本能力。 2 全闪存是数智化时代提升数据处理效率、满足业务需求的最优解,同时满足不断增长的数字化转型和日益深化的智能化变革;与此同时,配合向量RAG、长上下文记忆存储等新兴数据范式,可以有效简化数据访问,实现以存强算,提升系统整体性能。 3 不管是产生了更多数据的数字化,还是持续成长的智能化,均需要构建防治结合数据安全体系,从被动应对攻击走向主动全面防护。 4 为AI算力集群建设AI数据湖底座,打破数据烟囱,实现数据的可视可管可用。 5 针对AI大模型在行业场景的落地,用好训/推一体机,基于预集成了基础设施、工具软件等部件的一体化设备,并借助AI大模型供应商的系统集成能力,有效加速AI落地行业应用。 01 数字化快速 走向数智化 5 1956年,人工智能(AI)被确立为一门学科。经过近70年的探索和发展,AI进入了大模型时代,基于深度学习算法,通过大规模算力对海量数据进行学习和训练,从而得到较优的AI模型。今天,随着AI大模型能力和性能持续提升,AI正逐渐由大模型中心训练走向行业应用,引发各行各业智能化转型和业务变革。 在AI大模型时代,算力、算法、数据构成了大模型训练三要素。规模定律(ScalingLaw)揭示了在当前深度学习算法框架下,算力和数据之间的关系:更强的算力加上更多的有效训练数据,可以得到更好的AI大模型。 在规模定律的驱动下,人们一边不断构建更大规模的算力集群,一边竭尽所能获取更多的原始数据和训练数据,在实现了由单模态大模型向多模态大模型演进的同时,也在一些面向消费者的业务场景中获得商用。例如最新的智能办公本,除了进行日常笔记和阅读外,还可以进行图片文字识别、会议录音转文字记录、外语翻译、文案生成等多种智能操作,获得广泛接受。 相比大模型训练和AI应用于消费者,行业用户则更加关注AI大模型如何服务于业务、如何改善内部运营、如何增强竞争力。部分行业用户已在某些场景中找到AI的切入点,例如呼叫中心智能客服、医院诊疗助手、在线情景式教育、广告文案辅助生成、工业生产质检、复杂网络智能运维和自动驾驶等,并持续尝试在更多业务场景深入探索。在这个探索过程中,越来越多行业用户发现,AI在行业的落地离不开高质量行业数据。一方面,行业和场景模型需要使用一定规模的行业数据对基础大模型进行二次训练和监督微调,进而得到一个面向特定行业的垂直模型;另一方面,在推理阶段用于消除幻觉的知识库,同样需要依赖高质量的、具有时效性的行业数据来生成。 可以看到,不管是基础大模型的训练,还是大模型在行业的应用落地,都离不开大规模高质量的数据。数据的规模和质量决定了AI智能的高度,也决定了AI在千行万业的应用成熟度。 1.1金融 金融行业在数字化时代领航,开创了FinTech。今天,AI大模型与金融行业融合,在数字化所积累的海量数据资产基础上,金融行业具备在数智化时代继续领航的先发优势。以银行为例,正在从办公助手、智能填单等办公辅助逐步走向远程银行、信贷风控助手等生产场景。从对内办公辅助走向对外业务应用,意味着从高容错走向低容错。而正确的建议和选择,需要从海量数据中得出。针对海量数据的高效归集、快速处理、安全可靠,成为了新的挑战。 1.1.1降本到增效:从办公辅助走向业务决策 金融机构一直是率先将新兴的IT技术应用于业务场景的行业。目前,领先金融机构已经纷纷投入人工智能(AI)技术,尤其是大模型技术的研发和布局,使能业务运营、产品营销、风险控制和客户服务等业务领域,从而提升金融服务的智能化。根据IDC相关报告,90%的银行已经开始探索人工智能的应用,AI技术成为银行技术创新的主要方向。 1 在智能营销场景,通过AI技术分析大量的用户数据,并基于客户需求和偏好提供个性化的金融服务。这不仅提升了用户体验,同时增强了客户粘性。如,交通银行利用AI技术挖掘客户兴趣偏好,用大模型强化业务端留客能力,各类理财模型策略累计触客成交量近4千亿元,较传统 方式成交率提升16倍。 2 在智能理财场景,AI技术通过机器学习和深度学习模型,能够帮助投资者更准确地做出投资决策。江苏农行和中国工商银行分别推出了类ChatGPT的大模型应用ChatABC和基于昇腾AI的金融行业通用模型,用于智能化地推荐理财产品。上海浦发银行则利用多模态人机交互、知识图谱等技术,推出了AI“理财专家”,为消费者推荐合适的理财产品。 3 在信贷审批的风控场景,AI帮助简化和优化了从信贷决策到量化交易和金融风险管理的流程,亚太区域某头部银行通过AI技术实现了用户信贷申请过程从原来的数天缩短到只需一分钟完成申请,最快一秒钟获得审批。 4 智能客服在金融服务中有着显著的应用。以招商银行信用卡公司为例,通过智能客服每天为客户提供超过200万以上的在线人机交互,并能够解决99%的用户问题。智能客服不仅能提升 客户服务效率,相对于人工客服,还能够提供24小时不间断服务。 1.1.2完善多源多元海量数据管理,加强数据安全合规建设 在人工智能应用逐步普及的过程中,金融机构在数据架构、数据安全和业务连续性等方面面临新的挑战。 300 数据量PB 5年平均增长率 250 200 150 100 50 0 2023 2024 2025 2026 2027 1、首先,是庞大数据量的管理,金融行业在数据量方面已经达到了EB(Exabyte,即艾字节)级别。以中国为例,根据北京金融信息化研究所(FITI)2023年发布的最新报告,目前金融机构的数据量普遍达到PB级,其中大型金融机构的数据量超过100PB,并且未来五年预计年均增幅将达到24.33%。此外,国有大型银行的核心业务系统存储规模也已达到百PB级,票据影像等非核心系统存储规模更是达到了几十PB甚至百PB级。围绕金融行业海量业务数据,如何实现高可靠、高效率的访问,进一步实现数据价值最大化,是金融机构必须考虑的问题,例如,针对海量的数据量及不同的数据类型,采用高性能的存储设备以及优化存储架构,加快AI与金融行业的融合。 图1:某大型金融机构数据量年均增长率 2、其次,金融业务需要处理种类多样的数据类型,经过多年的业务积累和沉淀下来的数据,比如:图片,视频,音频,以及互联网日志等各类金融数据,不但数据格式陈旧复杂,而且分