2022中国大模型发展白皮书 ⸺元能力引擎筑基智能底座 本研究由百度支持 CONTENTS目录 IDC观点01 01前言02 1.1大模型发端及内涵02 1.2国家政策推动中国大模型加速发展03 02大模型成为AI开发新范式06 2.1人工智能发展的挑战与阻碍06 2.2大模型带来AI开发新范式09 03大模型加速产业智能化变革12 3.1大模型带来AI技术与应用变革潜能被广泛验证12 3.2“模型+工具平台+生态”三级协同加速产业智能化15 3.3大模型加深度学习平台正在成为产业智能化基座16 04大模型的评估与典型市场参与者19 4.1产业生态图谱19 4.2大模型评估框架及评估结果20 4.3百度文心大模型22 05大模型未来发展趋势33 5.1大模型的发展是大势所趋33 5.2对行业用户的建议34 5.3对大模型供应商的建议35 IDC观点 随着数字化转型需求增长,AI在企业中的应用也越来越多,AI开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题成为AI规模化落地的挑战,而预训练大模型的出现则为人工智能带来了新的机遇与希望。大模型作为政府和企业推进人工智能产业发展的重要抓手,在识别、理解、决策、生成等AI任务的泛化性、通用性、迁移性方面都表现出显著优势和巨大潜力。 IDC预测未来大模型将带动新的产业和服务应用范式,在深度学习平台的支撑下将成为产业智能化基座,企业需加快建设人工智能统一底座,融合专家知识图谱,打造可面向跨场景或行业服务的“元能力引擎”。 具体来看: 大模型具有良好的通用性、泛化性,显著降低人工智能应用门槛。预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性,用户基于大模型通过零样本、小样本学习即可获得领先的效果,同时“预训练+精调”等开发范式,让研发过程更加标准化,显著降低了人工智能应用门槛,成为AI走向工程化应用落地的重要手段。 深度学习平台为预训练大模型的发展保驾护航,两者结合夯实了产业智能化基座。深度学习平台是推动产业智能化转型升级的核心载体,为大模型的算法开发、训练、部署保驾护航。大模型加上深度学习平台,贯通了从硬件适配、模型训练、推理部署到场景应用的AI全产业链,夯实产业智能化基座,将加速产业智能化升级。 大模型在推进产业智能化升级中已表现出巨大潜力,企业应该尽早关注。大模型目前的产业应用包括面向企业提供AI中台基座、深度定制支持产品或生产的优化与创新、开放模型服务等。大模型已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力,企业应该尽早关注,在业务中布局。 未来还需加强大模型与真实场景需求匹配,推动大模型大规模落地。目前中国大模型厂商在模型布局方面较为完善,应进一步围绕行业赋能的广度和深度持续探索,不断夯实基于大模型的产品建设,推动大模型技术从实验室走向实际大规模落地。 前言 人工智能显著的溢出效应加快推进了新一轮科技革命,也带动了其他技术的进步。随着产业应用的深入、场景复杂度提升,随之而来的是数据的爆发式增长、算法的飞速更新迭代、算力的消耗指数上升,这些都对人工智能的发展提出新的要求。 1.1大模型发端及内涵 随着人工智能赋能实体经济进入深水区,企业通常面临数据资源有限、算力投资难度大、高水平人才稀缺的发展瓶颈。大模型作为解决上述问题的最优路径之一,可极大降低企业的技术门槛和开发成本。 IDC定义下的AI大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。 产业应用 原子能力 任务相关少量数据 图1训练大模型“预训练+精调”模式 智能检索智能推荐 智能客服智能审核 工业质检智能录入 ...... 智能对话智能创作 智能问答文档理解 目标检测图像分割 ...... 精调应用 类似人类学习机制 精调 专业教育 预训练 通识教育 海量无标注数据 自监督学习 文本知识图像视频 来源:IDC&百度 从技术的角度来看,大模型发端于自然语言处理领域,以谷歌的BERT、OpenAI的GPT和百度文心大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高。此外,继语言模态之后,如视觉大模型等其他模态的大模型研究,也开始逐步受到重视。进一步地,单模态的大模型被统一整合起来,模拟人脑多模态感知的大模型出现,推动了AI从感知到认知的发展。 1.2国家政策推动中国大模型加速发展 AI软件及应用市场快速增长,AI大规模落地成主要关注点 2021年中国人工智能软件及应用市场规模为51亿美元,预计2026年将会达到211亿美元,各行业的需求正大力推进AI的发展,将推动市场的持续增长。 25000.0 20000.0 15000.0 10000.0 5000.0 0.0 图2中国人工智能软件及应用市场规模预测,2021-2026 单位:百万美元 21077.0 16801.1 12840.6 9160.4 5082.6 6467.8 202120222023202420252026 来源:IDCAICloudtracker 随着数字经济、元宇宙等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期,但其开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化落地。AI大模型凭借其优越的泛化性、通用性、迁移性,为人工智能大规模落地带来新的希望。 国家政策对AI产业应用的关注与引导将推动预训练大模型加速发展 在国家层面,各国都在强调人工智能在发展中的重要性,并相继出台相关政策,希望在新一轮产业变革中占据上风。中国在“十四五”期间,针对人工智能的未来发展陆续出台了相关指导方案和激励支撑政策,对人工智能的整体发展方向和技术发展重点做出重要规划,同时提出加强算法创新与应用、推动算力基础设施建设、完善数据基础支撑体系等关键建议,倡导未来不断夯实产业发展新基础。 具体来看,上海市发布《上海市人工智能产业发展“十四五”规划》,《规划》中提到“十三五”时期上海人工智能发展面临的瓶颈:规模化应用深度不足,人工智能的应用以单个场景使用为主,深入传统行业核心业务流程、完整解决行业痛点、实现商业价值的应用较少;而大模型凭借其特性,直击痛点,将会 是未来突破发展瓶颈的关键技术。在基础理论研究中,《规划》还提到,“十四五”人工智能发展的主要任务是深化人工智能通用技术突破,面向自然语言处理、计算机视觉、语音识别等通用技术,支持相关科研机构和企业加快研发;建设先进算法模型,相关测试性能达到国际领先水平;支持对各类算法模型进行深度优化,适配实际应用需求。此外,北京市发布《北京市“十四五”时期高精尖产业发展规划》, 《规划》重点关注:全面突破智能芯片、开源框架等核心技术,构建自主可控的产业链体系;建设国家级人工智能前沿研究中心、超大规模人工智能模型训练平台;融合人工智能和产业应用。同时,广州市也发布《广州市人工智能产业链高质量发展三年行动计划》,《规划》提到对大模型及其上下游产业生态链的布局要求和对相关技术平台在落地应用时的可靠性把握:针对昇腾、云从、讯飞等开放平台,未来将重点关注产业技术生态的塑造,促进AI精准赋能,提升人工智能应用的安全性与可信性。 大模型的技术特点、实现方式以及场景应用能力均与“十四五”时期政策期望相符,能够有效解决人工智能所面临的部分挑战。在场景驱动下,大模型技术将不断迭代发展,数据的增长和算力的发展也赋能模型训练和平台优化,形成技术供给和场景需求互通演进的持续创新力。 大模型成为AI开发新范式 2.1人工智能发展的挑战与阻碍 2.1.1数据、算法、算力是AI发展的驱动力也是瓶颈所在 数据、算法和算力是人工智能的三大要素,在核心技术发展以及应用落地中起着至关重要的作用,三者互相作用形成对人工智能的正向推动力。人工智能企业多数都是使用开源框架、自建数据库、购买算力的方式进行研究,但是随着企业信息化和数字化的发展,带来AI场景多样化和数据的井喷式增长,随之也使得算法的复杂度急剧提升、算力的消耗成倍增加,导致不少企业发展受限,亟需技术与产品的突破来解决AI所面临的问题。 信息化的发展使得数据量爆发式增长,带来数据“宝藏”的同时也对技术提出更多挑战 数据是AI发展的基石,随着人工智能、区块链、IoT等新兴技术的发展,中国乃至全球的数据规模都将高速增长。据IDC统计,中国数据规模将从2021年的18.51ZB增长至2026年的56.16ZB,年均增长速度CAGR为24.9%,增速位居全球第一。 250 200 150 100 50 0 图3全球数据圈:按地区划分,2021-2026(单位:ZB) 中国数据量规模CAGR24.9%,为全球第一 18.51 21.77 42.19 22.73 26.52 49.72 202120222023202420252026 44.46 32.29 48.58 39.26 58.99 59.28 70.63 84.56 100.84 35.64 28.37 56.16 中国北美其他地区 来源:IDCGlobalDataSphere,2022 注:IDC将每年被创建、采集或复制的数据集合定义为数据圈(DataSphere) 随着数据量的高速增长,数据特征高维、模态格式多样的趋势也逐渐明显,对数据的AI建模也相应地更加复杂,涉及到研究对象的多变量维度,如时间、空间维度,计算复杂度会随之呈指数增加,数据标注难度也会增加。同时,海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险,为模型如何有效利用好数据、学习其中的知识带来更大挑战。 数据是产业智能化发展中最宝贵的资源。海量的数据,为人工智能自监督学习带来巨大助力。利用好爆发增长的海量数据,将会是企业充分挖掘数据红利、构建数字经济下竞争壁垒的重要抓手。 应用场景多元化和复杂化,增加了模型生产的难度 随着AI技术的发展、产业应用的深入,应用场景变得更多元、更复杂。例如:工业场景下,有工业质检、安全巡检等应用,质检中不同产线生产的零部件千差万别;智能办公场景下,文档的分类、文档OCR识别、文档知识抽取、文档审校也都是不同的任务类型。解决一个场景的问题,往往需要多个任务的深度融合,涉及多任务统一建模等问题,因而对算法提出了更高的挑战。按照现在主流的算法应用,这意味着技术厂商需要针对不同场景、不同任务生产大量的算法或模型。一方面这将会导致重复性工作量加 大,另一方面也对开发人员的算法能力和业务理解有更高的要求。随着智能化转型的需求增加,AI开发门槛和研发效率问题凸显。 应用复杂度攀升,算力承压持续增加 算力是AI发展的基础设施,是通过对信息数据进行处理,实现目标结果输出的计算能力。除了要求提升计算能力,技术的发展对于软硬件也提出了新的要求。目前整体市场发展还不及预期,具体来说,硬件方面需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算的需求。目前人工智能芯片主要有GPU、FPGA和ASIC等类型,从英伟达GPU的发展可以看出,算力、内存、网络传输等都在提升,计算能力逐步增强,但在产业落地应用中的成本还相对较高。随着分布式训练的发展,数据存储和网络传输问题成为大模型训练的瓶颈。目前InfiniBand,已经可以支持节点内以及节点之间高吞吐低延迟的数据互联,缓解网