您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国软件评测中心]:2024人工智能大语言模型发展技术研究 - 发现报告
当前位置:首页/行业研究/报告详情/

2024人工智能大语言模型发展技术研究

AI智能总结
查看更多
2024人工智能大语言模型发展技术研究

人工智能大语言模型 技术发展研究报告(2024年) 中国软件评测中心 (工业和信息化部软件与集成电路促进中心)2024年6月 人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力,正在引发经济、社会、文化等领域的变革和重塑,2023年以来,以ChatGPT、GPT-4为代表的大模型技术的出台,因其强大的内容生成及多轮对话能力,引发全球新一轮人工智能创新热潮,随着大模型技术演进、产品迭代日新月异,成为科技产业发展强劲动能。本报告总结梳理大语言模型技术能力进展和应用情况,并对未来发展方向予以展望,以期为产业界提供参考。 由于编者水平所限,不妥之处,请批评指正。 目录 第一章大语言模型发展基石1 (一)软硬协同持续推动大模型能力提升1 1.大模型发展对算力需求成井喷式增长1 2.AI芯片自研和算力优化成为应对算力需求的重要手段 ..................................................2 3.计算、存储、网络协同支持大模型训练3 4.深度学习框架是大模型研发训练的关键支撑5 5.大规模算力集群的创新应用与突破6 (二)数据丰富度与质量塑造大模型知识深度与广度7 1.大模型对数据数量、质量提出新要求7 2.产业各方加快构建高质量丰富数据集11 (三)算法优化与创新推动大模型能力升级14 1.多阶段对齐促进大模型更符合人类价值观14 2.运用知识增强提升模型准确性15 第二章大语言模型发展现状16 (一)模型训练推理效率及性能明显提升17 (二)围绕中文生成与推理能力构筑比较优势18 (三)模型应用生态更加丰富多样18 (四)海量数据处理基础能力不断增强19 (五)采用多模型结合的路线加速应用落地20 第三章大语言模型的核心能力进阶22 (一)深层语境分析与知识融合强化语言理解应用22 (二)精确内容生成与增强搜索的融合23 (三)符号逻辑与神经网络的融合提升25 (四)上下文记忆能力的增强26 (五)更为可靠的内容安全与智能应答机制27 第四章大语言模型创新应用形态——智能体28 (一)智能体(AIAgent)28 1.智能体正成为大模型重要研发方向28 2.大模型能力为AIAgent带来全面能力提升29 (二)典型AIAgent案例32 1.RoboAgent:通用机器人智能体的开创性进步32 2.Coze:优秀的创新型AIAgent平台33 3.Auto-GPT:推动自主AI项目完成的新范例34 4.AmazonBedrockAgents:企业级AI应用的加速器.345.文心智能体平台:革命性的零代码智能体构建平台35 6.腾讯元器:AIAgent的智慧化体验35 7.NVIDIAVoyager:引导学习的Minecraft智能体36 8.MetaGPT:多智能体协作的元编程平台36 第五章大语言模型应用发展趋势37 (一)大模型将更加注重多模态数据融合37 (二)大模型将提升自适应和迁移学习能力39 (三)采用可解释性算法提高模型透明度40 (四)垂直大模型产品研发需结合行业深度定制41 (五)大模型发展需妥善处理隐私保护与数据安全问题43 第一章大语言模型发展基石 (一)软硬协同持续推动大模型能力提升 1.大模型发展对算力需求成井喷式增长 大规模的训练和推理需要强大的高性能算力供应,高端AI芯片是大模型高效训练和应用落地的核心,是决定大模型发展能力高低的关键。人工智能大模型参数规模和训练数据量巨大,需千卡以上AI芯片构成的服务器集群支撑,据测算,在10天内训练1000亿参数规模、1PB训练数据集,约需1.08w个英伟达A100GPU,因大模型对高端AI芯片需求激增及高端芯片进口供应受限,英伟达等高端芯片已供不应求。据《金融时报》估算,我国企业对英伟达A800、H800两款GPU产品的需求达50亿美元。 GPT-3的训练使用了128台英伟达A100服务器(练34天)对应640P算力,而GPT-4的训练使用了3125台英伟达A100服务器(练90—100天)对应15625P算力。GPT-4模型的参数规模为1.9万亿,约为GPT-3的10倍,其用于训练的GPU数量增加了近24倍(且不考虑模型训练时间的增长)而目前正在开发的GPT-5模型预计参数量也将是T-4模型的10倍以上,达到10万亿级别,这将极大地提升大模型训练的算力需求。同时,各应用单位、科研院所科技企业的自研模型需求逐步增长,据工业和信息化部赛迪研究院发布的研究报告预测,到2024年年底我国将有5%—8%的企业大 模型参数从千亿级跃升至万亿级,算力需求增速会达到 320%。 此外,未来在AI算力基础设施领域,将有越来越多的厂商采用定制化算力解决方案。在摩尔定律放缓的大背景之下,以往依靠摩尔定律推动着性能效益提升的途径越来越难以为继,要想得到最佳的计算性能,必须依靠针对特定应用和数据集合的体系架构。特别是在AI大模型领域,不同厂商均有着不同的差异化需求,越来越多公司发现,一体适用的解决方案不再能满足其计算需求。为把每一颗芯片的性能、效率都发挥到极致,做到最佳优化,需要根据算法模型、工作负载等进行针对性优化。 2.AI芯片自研和算力优化成为应对算力需求的重要手段算力芯片是大模型的算力“发动机”,拥有算力资源的 企业具备更强的竞争力,强大的算力资源可以加速模型训练、提升市场响应速度,强力支撑更复杂、更深层次的模型训练,从而提高模型的预测精度和整体性能。 在大模型的高算力需求推动下,大厂加强AI芯片研发力度,持续优化大语言模型所用的transformer架构。如,谷歌为其最新款的Pixel手机装上了自研TensorG3芯片,让用户可以在手机端解锁生成式AI应用。微软宣布推出两款自研芯片Maia100和Cobalt100。Maia100用于加速AI计算任务,帮助人工智能系统更快处理执行识别语音和图像等任务。 亚马逊推出专为训练人工智能系统而设计的第二代AI芯片Trainium2,以及通用Graviton4处理器,Trainium2的性能是第一代Trainium的四倍,能源效率是其前身的两倍,相当于每个芯片可提供650teraflops(每秒执行一万亿次浮点运算)的计算能力,由10万个Trainium芯片组成的集群可以在数周内训练出3000亿参数的大语言模型。亚马逊以40亿美金投资大模型创企Anthropic后,要求其使用亚马逊自研AI芯片来构建、训练和部署大模型。OpenAI也表示正尝试自研AI芯片,并已开始评估潜在的收购目标。近年来,我国AI芯片技术能力不断提升,涌现出百度♘仑芯、海思昇腾、寒武纪、燧原科技、壁仞科技、海光、天数智芯、沐曦、芯动科技、摩尔线程等代表企业,并实现产品商业化。如百度♘仑芯1代AI芯片于2020年实现量产,已在百度搜索、小度助手、文心大模型推理业务等自有场景实现规模应用,已应用于互联网、工业制造、智慧金融等领域;针对大语言模型训练场景,百度♘仑芯可提供一整套精调的训练策略,其解决方案已通过某能源行业SFT训练模式,客户短期可打造专属行业大模型。 3.计算、存储、网络协同支持大模型训练 大模型的研发训练高度依赖高端芯片、集群及生态,高计算性能、高通信带宽和大显存均是必要能力,计算、存储、网络任一环节出现瓶颈将导致运算速度严重下降。大语言模 型的训练和推理受限于芯片通信速度,随着大模型的吞吐量大幅增长,芯片内部、芯片之间形成“存储墙”,其通信速度正成为计算瓶颈。因此,需要计算、存储、网络协同,提供更好的算力支持。主要包括以下四方面:一是分布式训练技术支撑训练需求。由于大模型的计算量非常大,单个计算节点很难满足训练需求。因此,需要使用分布式训练技术,将模型训练任务分配到多个计算节点上进行并行计算。这要求算力统筹具备高效的分布式训练框架和算法。二是算力管理和调度确保资源充分利用。随着大模型规模的不断扩大,算力管理和调度变得尤为重要。有效的算力管理和调度策略可以确保计算资源的充分利用,避免资源浪费,并提高训练效率。这包括合理的任务分配、负载均衡、资源监控和动态调整等。三是高速的内存和存储有效提升训练效率。大模型在训练过程中需要快速读取和写入大量数据,因此要求具备高速的内存和存储设备。例如,使用DDR4内存和NVMeSSD等高速存储设备可以显著提高训练效率。四是网络连接和通信影响训练速度。在分布式训练中,各个计算节点之间需要高速的网络连接来传输数据和同步梯度信息。因此,网络连接和通信的速度和稳定性对大模型的训练效率具有重要影响。 目前,业界在计算、存储、网络的协同方面已开展有效工作。在分布式训练中,GPU在机间和机内不断地进行通信, 利用IB、RoCE等高性能网络为机间通信提供高吞吐、低时延的服务,同时还需要对服务器的内部网络连接,以及集群网络中的通信拓扑进行专门设计,以满足大模型训练对通信的要求。英伟达GPU彼此之间的数据传输速率高达600GB/s,通过8个或16个GPU组成一个服务器主机,可以较好地实现高速数据传输,以支撑大规模的模型训练。百度智能云与NVIDIA共同建成大规模高性能GPU/IB集群,经过专门设计和优化,发挥集群的整体算力。 4.深度学习框架是大模型研发训练的关键支撑 在当前的数字科技领域,算力的发展已经达到了万卡级别的庞大规模,即单体智算集群拥有上万个GPU计算节点。这种前所未有的强大算力为深度学习等复杂计算任务提供了坚实的算力支撑。而在训练过程中,高效的深度学习框架则扮演着至关重要的角色,不仅提供了简洁易用的编程接口,还能够在万卡集群上高效地分配和管理计算资源,确保大模型训练的稳定性和效率。 如,百度飞桨(PaddlePaddle)集核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体,实现了动静统一的框架设计,兼顾科研和产业需求,在开发便捷的深度学习框架、大规模分布式训练、高性能推理引擎、产业级模型库等技术上具备优势。在硬件适配方面,飞桨结合大模型适配需求,全面升级硬件适配方案,更好地支持硬件厂商灵活定 制、软硬协同深度优化,通过端到端自适应混合并行训练技术以及压缩、推理、服务部署的协同优化,通过支持硬件算子的编译和多Stream并行计算,减少等待和阻塞,实现了自定义融合策略和加速算子,支持硬件厂商灵活接入不同颗粒度算子。飞桨深度学习平台提供了高效的分布式训练架构,在万卡集群上,飞桨能够支持超大规模的模型训练任务,实现大量计算节点之间的高效协同,更好地完成大模型的训练任务,这不仅提高了训练效率,而且降低了训练成本。 5.大规模算力集群的创新应用与突破 我国骨干厂商积极探索打造高性能算力集群,并通过协同优化、工具支持等实现高效稳定的大模型训练,提高算力使用效率。百度百舸2.0在AI计算、AI存储、AI容器等模块上进行了能力增强和功能丰富,并发布了AI加速套件。AI加速套件通过存训推一体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升AI作业速度。为了提升集群通信效率,百度发布了弹性RDMA网卡,相比传统专用的RDMA网络,弹性RDMA网络和VPC网络进行了融合,使得用户的使用成本更低,同时通信延时降低了2-3倍。此外,百度在万卡集群的运维和稳定性方面也进行了大量优化工作,如通过自研的集群组网故障管理机制,降低了工程师在容错和故障恢复上的时间成本,优秀的运维能力和稳定性为大模型的训练提供了有力的保障。腾讯云发布新一代HCC 高性能计算集群,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,腾讯团队在同等数据集下,将万亿参数的AI大模型混元NLP训练由50天缩短到4天。其自研星脉高性能计算网络和高性能集合通信库TCCL,具备业界最高的3.2TRDMA通信带宽,在搭载同等数量的GPU情况下,为大模型训练优化40%负载性能,消除多个网络原因导致的训练中断问题。浪潮信息AI团队在2023年相继研发了OGAI(OpenGenAlInfra)大模型智算软件栈、源2.0大模型,从软硬协同层面去持续提升基础大模型