2023年大模型创新生态白皮书 二〇二三年五月 目录 一、大模型发展概述1 (一)定义内涵1 (二)发展历程2 (三)演进趋势5 二、大模型创新生态7 (一)关键技术7 (二)产业图谱11 (三)标准建设15 (四)面临挑战19 三、大模型竞争格局21 (一)市场规模21 (二)评价指标25 (三)竞争格局28 (四)典型案例33 四、策略建议41 (一)政策端:完善政策体系,助推大模型高速发展41 (二)技术端:强调原始创新,抢占大模型科技高地41 (三)应用端:拓展应用场景,注入行业发展新动能42 (四)产业端:培育产业“土壤”,探索大模型生态体系43 一、大模型发展概述 (一)定义内涵 目前,国内外产学研界人工智能专家对于大模型的定义是指基于海量多源数据、强大计算资源打造的预训练模型,这种模型是对原有算法模型的技术升级和产品迭代,兼具“大规模”和“预训练”两种属性,经过对大规模宽泛的数据进行预训练后以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案,大幅提升人工智能的泛化性、通用性、实用性,是“大算力+大数据+强算法”结合的产物。总体上,大模型的诞生标志着自然语言处理(NLP)和人工智能领域的一大步,能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等,催生出新的场景和产业模式。 大模型推动人工智能迈向通用智能领域跃升,打造人工智能开发新范式。面对人工智能的各种挑战,具备通用性的大模型采用“大规模预训练+微调”的新范式,可高效灵活适应多样化、碎片化的应用需求,实现用更统一的方式推动人工智能产业落地。一方面,相较于传统人工智能小模型应用难以全面覆盖产业的短板,大模型能够更准确的赋能全产业链,推动人工智能发展的代际变革。另一方面,相比较小模型的生成方式,在大模型时代,在AI原生基础设施上,大模型结合数据反馈闭环是未来人工智能大模型驱动的商业模式与产品设计的基础,在此前景下,新范式将会更加注重基础设施成本、算力与数据规模、以及实时用户大数据的 反馈和迭代。 大模型成为新时代提升生产力的重要工具,将带来一场新工业革命。生产力的变革是推动人类社会进步的根本动力,大模型的出现能够提升我国核心技术、产业的优势,将机器智力构建成为新的主流生产力。机器智力是智能算力与人类知识的扩展、集成和融合,大模型是机器智力的载体。随着大模型的不断进化和普及,其将成为经济社会的主流生产工具,重塑千行百业的生产关系,全面降低生产成本,提升经济效益。 大模型进一步推动数字社会向智能社会跃升,加速产业 智能化变革。AGI产业高度发展衍生出基于大模型的多种新业态和新市场,成为经济增长的核心引擎。当前,华为、百度、阿里、腾讯、商汤、京东、科大讯飞等国内各大科技厂商争相展开大模型的探索与实践,在智能制造、健康医疗、金融服务、智能驾驶、政务服务等领域推出规模化的落地场景。例如,华为的盘古大模型更加专注ToB业务,主要为煤矿、电力、金融、农业等行业赋能更多产业价值;百度的文心千帆大模型目前已经有超过300家生态伙伴,共同探索涵盖工业、金融、政务、互联网、运营商、教育等行业落地场景等。随着大算力、大数据、高性能算法等核心技术发展,大模型的生态将逐步发展完善,带动新的产业和服务应用范式,成为产业智能化发展的坚实基座,助力数字经济高质量发展。 (二)发展历程 大模型的演进历程从最初的语言模型发展,是为了解决机器语言特征的相关问题,凭借其计算性能使被应用于自然语言处理(NLP)领域的场景中,然后,逐步经历了网络结构、计算能力的不断优化以及算法的持续创新,基本形成了从NLP泛化至CV以及多模态模型的生态体系。总体而言,从参数规模上看,大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看,大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。大模型发展大致经历了以下几个阶段: 初始发展阶段:大模型研究起始于20世纪90年代初, 在此阶段,研究者们开始尝试构建较大的神经网络结构。随着计算能力的提高,例如GPU计算、训练策略、训练技巧,神经网络模型开始变得更大、更深。2012年深度学习开始引起广泛关注。此后,研究者们开始探索各种神经网络结构,如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等,许多大型模型逐渐出现,如VGG、Inception、ResNet等。 探索发展阶段:人工智能进入预训练模型阶段。2017年 Vaswani等人提出Transformer架构,奠定了大模型领域主流算法架构的基础,该结构使得深度学习模型参数达到上亿规模。2018年谷歌发布基于Transformer的双向深层预训练模型—BERT,极大助力自然语言处理领域的发展。此后,基 于BERT、ELNet、RoberTa、T5的增强模型等一大批新的预训练语言模型相继涌现,预训练技术在自然语言处理领域得到快速发展。2019年,OpenAI在GPT1的基础上,推出15亿参数的GPT-2,可以生成连贯的文本段落,实现早期阅读理解和机器翻译;英伟达推出了83亿参数的Megatron-LM;谷歌推出了110亿参数的T5;微软推出了170亿参数的Turing-NLG,大模型正式成为人工智能的竞争方向。 快速发展阶段:大模型进入“军备竞赛”。随着2020年 OpenAI推出1750亿参数超大规模语言训练模型GPT-3,实现了模型规模从1亿到上千亿级的突破,实现作诗、聊天、生成代码等功能,全球科技巨头在大模型领域投入大量资源。微软、英伟达、谷歌、亚马逊等均在大模型领域展开布局,包括OpenAI最新发布的“史上最强”多模态预训练大模型、谷歌推出历史上首个万亿级语言模型、谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型PaLM-E,参数量高达5620亿;以及微软将OpenAI大模型与自家结合发布的网络安全产品MicrosoftSecurityCopilot。 相比之下,我国大模型爆发于2021年,仍处于快速增长阶段。2021年,已有华为、阿里、百度、商汤科技、浪潮等国内各科技企业相继发布“文心一言”、“通义千问”、“混元”、“盘古”等大模型。此外,部分研究机构也在进行大模型的布局,比如北京智源人工智能研究院的“悟道”、中国科学院自动化研究所的“紫东太初”等。2023年以来,随着ChatGPT“出圈”,百度、阿里、商汤、科大讯飞、复旦大学 等纷纷推出大模型改进与应用,例如,百度发布“文心一言”、阿里巴巴发布通义千问、科大讯飞发布“星火”认知大模型、京东宣布推出产业版“ChatJD”等,在大模型发展浪潮之中,国内大模型生态企业不断涌现,部分科技企业经历了从“大炼模型”到“炼大模型”的范式转变,市场定位大模型落地的“最后一公里”,解决特定场景的大模型落地痛点问题。随着参与企业越来越多、参数规模越来越庞大,大模型已经成为未来人工智能技术和产业生态的核心。 图1-1大模型发展演进历史 (三)演进趋势 模型复杂化和大型化。更复杂和大型化的大模型通常有更强的泛化能力,即在面对新的、未曾见过的数据时也能得到较好的预测结果。较大的模型可以从更多的数据中进行学习,通过处理更多任务和更大规模数据集,总结出更普遍适用的规律。同时随着硬件技术的进步,如GPU、TPU等计算能力不断提升,可以支持更大和复杂的模型进行训练,使得 大规模模型的实现成为可能。 “大模型”和“小模型”协进。大模型沉淀的知识与认知推理能力向小模型输出,小模型基于大模型的基础叠加垂直场景的感知、认知、决策、执行能力,再将执行与学习的结果反馈给大模型,让大模型的知识与能力持续进化,形成一套有机循环的智能系统,增加大模型产业的参与者与应用方,加速模型进化。 通用化与专用化并行。通用大模型偏重统一架构、统一模态、统一任务,专用大模型则通过通用预训练和专用预训练实现业务场景应用。在专用大模型上发展出的垂直行业大模型将针对特定领域的下游任务,通过有监督微调及强化学习等手段优化,学习到该领域或行业的特定知识和规律,进而形成赋能各行各业前端业务场景的基础设施和底座。 模型调优与自适应并行。通过模型调优和自适应,可以进一步提升人工智能大模型的性能和准确性,从而更好地满足各种任务需求和应用场景,有效地降低计算资源消耗,减少训练和推理的时间开销,提高模型在实际应用中的可行性。同时,增强人工智能大模型的泛化能力,使其能够在面临未知任务或数据时,依然保持较高的性能和准确性。 边缘计算和分布式智能并行。考虑到计算资源和延迟等因素,未来人工智能大模型可能会更多地应用于边缘计算和分布式智能系统,提供更高效、低能耗的智能服务。未来甚至可能出现去中心化,中心数据中心与边缘数据中心多路径互联的全分布式云。边缘计算将为未来的百亿终端提供人工 智能运算能力,形成万物感知、万物互联、万物智能的智能世界。 二、大模型创新生态 (一)关键技术 1、算法:源于算法理论发展、迭代优化 Transformer是突破传统深度学习瓶颈的核心算法。Transformer的自注意力机制和自监督学习通过捕捉输入序列中的任意远的依赖关系,使算法注意到输入向量中不同部分之间的相关性,同时模型直接从无标签数据中自行学习特征提取器,克服了传统的神经网络技术用浅层的预训练网络来捕捉单词,并无法解决一词多义等问题缺陷,形成更好的语言表达效果,当前流行的大模型大多都是基于Transformer的变体或扩展。 高效微调算法是大模型通用泛化能力的关键。大模型微 调相较于从零开始训练可以减少数据标注、缩短训练时间,是低成本、高收益的解决方案。大模型需利用指令微调、监督微调、思维链等微调方法对模型进行优化,提高模型性能,再借助人类反馈强化学习,生成更符合人类期望的内容。微调算法正成为大模型优化的核心竞争方向。如OpenAI通过引入人类反馈强化学习算法,帮助ChatGPT有效理解人类指令。 超大参数规模是大模型精度的基础。大模型参数量与训练量超过一定规模后,模型精度大幅提升,同时模型可从原始训练数据中自动学习并发现新的、更高层次的特征和模式 的能力,包括语言理解能力、生成能力、逻辑推理能力等。如相较于GPT-3.5,GPT-4参数量从1750亿提升至33000亿,帮助GPT-4在专业和学术方面表现出近似于人类的水平,模拟律师考试中GPT-4得分达前10%,而GPT-3.5得分只能排在倒数10%左右。 图2-1大模型“涌现”能力 压缩算法是加速大模型落地的关键。大模型结构复杂,存储与计算成本极高,通过量化、剪枝、蒸馏、专家化等算法组合“瘦身”,可以将一个庞大而复杂的预训练模型转化为一个精简的小模型,有助于提升模型效率、拓展智能设备适应性、降低训练成本,进而提升研究与开发效率。GoogleI/O2023大会中发布PaLM2大模型,提供了从小到大的Gecko、Otter、Bison和Unicorn四个版本,其中Gecko可以以20Tokens/秒的速度在最新的手机上运行,大幅降低大 模型落地门槛。 2、算力:效率与性能的基础设施,芯片至关重要 算力水平是大模型处理能力的决定性因素。大模型的训练、推理均需高算力支撑。大模型训练算力需求=2×参数数量×3×数据规模×训练轮数,推理算力需求=模型大小×推演批次大小×平均序列长度×推演速度。随着用户数量增长、模型多模态发展,训练、推理算力需求将随之增长。以OpenAI数据为基础,训练1轮GPT-3需要的算力为3.14×1023FLOP,而GPT4、PaLM、悟道2.0等模型参数量为GPT-3的数倍至数十倍,算力需求也将随之指数级上升。 算力芯片是大模型的算力“发动机”。在大模型的高算力需求推动下,芯片电路与架构有待进一步创新。尽管GPU具有大算力、通用性的特性,是大算力应用的首选,但其高功耗、高价格限制了发展规模。OpenAI曾由于用户增长速度过快,对算力需求量过大,暂停