中国人工智能系列白皮书 ——大模型技术(2023版) 中国人工智能学会二○二三年九月 《中国人工智能系列白皮书》编委会 主任:戴琼海执行主任:王国胤 副主任:陈杰何友刘成林刘宏孙富春王恩东王文博赵春江周志华 委员:班晓娟曹鹏陈纯陈松灿邓伟文董振江杜军平付宜利古天龙桂卫华何清胡国平黄河燕季向阳贾英民焦李成李斌刘民刘庆峰刘增良鲁华祥马华东�夺谦潘纲朴松昊钱锋乔俊飞孙长银孙茂松陶建华王卫宁王熙照王轩王蕴红吾守尔·斯拉木吴晓蓓杨放春于剑岳东张小川张学工张毅章毅周国栋周鸿祎周建设周杰祝烈煌庄越挺 《中国人工智能系列白皮书大模型技术》编写组 陶建华吴飞黄民烈文继荣王海峰刘知远刘静杨小康聂帅 目录 第1章大模型技术概述5 1.1大模型技术的发展历程5 1.2大模型技术的生态发展9 1.3大模型技术的风险与挑战11 第2章语言大模型技术13 2.1Transformer架构13 2.2语言大模型架构17 2.2.1掩码语言建模17 2.2.2自回归语言建模18 2.2.3序列到序列建模18 2.3语言大模型关键技术19 2.3.1语言大模型的预训练19 2.3.2语言大模型的适配微调21 2.3.3语言大模型的提示学习24 2.3.4语言大模型的知识增强26 2.4.5语言大模型的工具学习27 第3章多模态大模型技术29 3.1多模态大模型的技术体系29 3.1.1面向理解任务的多模态大模型29 3.1.2面向生成任务的多模态大模型31 3.1.3兼顾理解和生成任务的多模态大模型33 3.1.4知识增强的多模态大模型35 3.2多模态大模型的关键技术36 3.2.1多模态大模型的网络结构设计36 3.2.2多模态大模型的自监督学习优化37 3.2.3多模态大模型的下游任务微调适配39 第4章大模型技术生态41 4.1典型大模型平台41 4.2典型开源大模型44 4.2.1典型开源语言大模型44 4.2.2典型开源多模态大模型53 4.3典型开源框架与工具57 4.4大模型的训练数据60 4.4.1大模型的训练数据处理流程和特点60 4.4.2大模型常用的公开数据集63 第5章大模型的开发训练与推理部署66 5.1大模型开发与训练66 5.2大模型推理部署68 5.2.1大模型压缩69 5.2.2大模型推理与服务部署70 5.3软硬件适配与协同优化71 5.3.1大模型的软硬件适配72 5.3.2大模型的软硬件协同优化72 第6章大模型应用74 6.1信息检索74 6.2新闻媒体75 6.3智慧城市76 6.4生物科技76 6.5智慧办公77 6.6影视制作78 6.7智能教育78 6.8智慧金融79 6.9智慧医疗79 6.10智慧工厂79 6.11生活服务80 6.12智能机器人80 6.13其他应用80 第7章大模型的安全性82 7.1大模型安全风险引发全球广泛关注82 7.2大模型安全治理的政策法规和标准规范83 7.3大模型安全风险的具体表现85 7.3.1大模型自身的安全风险85 7.3.2大模型在应用中衍生的安全风险86 7.4大模型安全研究关键技术88 7.4.1大模型的安全对齐技术88 7.4.2大模型安全性评测技术91 第8章总结与思考94 8.1协同多方合作,共同推动大模型发展95 8.2建立大模型合规标准和评测平台96 8.3应对大模型带来的安全性挑战97 8.4开展大模型广泛适配,推动大模型技术栈自主可控98 名词索引99 参考文献101 编写人员贡献120 第1章大模型技术概述 1.1大模型技术的发展历程 2006年GeoffreyHinton提出通过逐层无监督预训练的方式来缓解由于梯度消失而导致的深层网络难以训练的问题[1],为神经网络的有效学习提供了重要的优化途径。此后,深度学习在计算机视觉[2]、语音[3]、自然语言处理[4]等众多领域取得了突破性的研究进展,开启了新一轮深度学习的发展浪潮。总结过去十多年的技术发展,基于深度学习的人工智能技术主要经历了如下的研究范式转变:从早期的“标注数据监督学习”的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到如今的“大规模无标注数据预训练+指令微调+人类对齐”的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。 2022年底,由OpenAI发布的语言大模型ChatGPT引发了社会的广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以ChatGPT为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用。大模型被认为很可能像PC时代的操作系统一样,成为未来人工智能领域的关键基础设施,引发了大模型的发展热潮。 本次大模型热潮主要由语言大模型(亦称为大语言模型)引领。语言大模型通过在海量无标注数据上进行大规模预训练,能够学习到大量的语言知识与世界知识,并且通过指令微调、人类对齐等关键技术拥有面向多任务的通用求解能力。在原理上,语言大模型旨在构建面向文本序列的概率生成模型,其发展过程主要经历了四个主要阶段[5]: 1)统计语言模型:统计语言模型主要基于马尔可夫假设建模文本序列的生成概率。特别地,N-gram语言模型[6]认为下一个词汇的生成概率只依赖于前面出现的N个词汇(即N阶马尔可夫假设)。此类语言模型的问题在于容易受到数据稀疏问题的影响,需要使用平滑策略改进概率分布的估计,对于文本序列的建模能力较弱。 2)神经语言模型:针对统计语言模型存在的问题,神经语言模型主要通过神经网络(MLP[7]、RNN[8])建模目标词汇与上下文词汇的语义共现关系,能够有效捕获复杂的语义依赖关系,更为精准建模词汇的生成概率。进一步,word2vec[4]简化了神经语言模型的网络架构,可以从无监督语料中学习可迁移的词表示(又称为词向量或词嵌入),为后续预训练语言模型的研究奠定了基础。 3)预训练语言模型:预训练语言模型主要是基于“预训练+微调”的学习范式构建,首先通过自监督学习任务从无标注文本中学习可迁移的模型参数,进而通过有监督微调适配下游任务。早期的代表性预训练语言模型包括ELMo[9]、GPT-1[10]和BERT[11]等。其中,ELMo模型基于传统的循环神经网络(LSTM)[12]构建,存在长距离序列建模能力弱的问题;随着Transformer[13]的提出,神经网络序列建模能力得到了显著的提升,GPT-1和BERT都是基于Transformer架构构建的,可通过微调学习解决大部分的自然语言处理任务。 4)语言大模型(探索阶段):在预训练语言模型的研发过程中,一个重要的经验性法则是扩展定律(ScalingLaw)[14]:随着模型参数规模和预训练数据规模的不断增加,模型能力与任务效果将会随之改善。图1-1展示了2018至2023年间典型预训练模型的参数量变化趋势。OpenAI在研发GPT系列模型过程中,主要探索了GPT-1[10] (1.1亿参数)、GPT-2(15亿参数)[15]、以及GPT-3(1750亿参数)[16]三个不同参数规模的模型,谷歌也推出了参数规模高达5400亿参数的PaLM模型[17]。当模型参数规模达到千亿量级,语言大模型 能够展现出多方面的能力跃升[18]。例如,GPT-3在没有微调的情况下,可以仅通过提示词或少数样例(In-contextlearning,上下文学习[19])完成多种任务,甚至在某些任务上超过当时最好的专用模型。学术界引入了“语言大模型”(Largelanguagemodels)[5]来特指这种超大规模的预训练语言模型,以突出与早期预训练语言模型的不同。图1-12018-2023年模型参数规模变化图 5)语言大模型(提升阶段):虽然早期的语言大模型表现出一定的少样本学习能力,但是其学习目标主要通过预测下一个单词实现,仍不能很好地遵循人类指令,甚至会输出无用的、有害的信息,难以有效对齐人类的偏好。针对这些问题,主要有两种大模型改进技术,包括指令微调(InstructionTuning)[20]以及基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)[21]。指令微调利用格式化(指令和回答配对)的训练数据加强大模型的通用任务泛化能力;基于人类反馈的强化学习(如图1-2所示)将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。在大模型使用过程中,可以使用各种提示技术 (包括思维链(Chain-of-Thoughts,CoT)[22]、思维树 (Tree-of-Thoughts,ToT)[23]等),从而更好地利用大模型的潜在能 力,提升大模型解决实际问题的能力。进一步,语言大模型主要是基于文本数据形式进行训练与推理,存在一些特定能力的不足,例如数值计算等。针对这一问题,可以使用外部工具(如计算器、搜索引擎等)扩展大模型的能力边界[24]。 图1-2基于人类反馈强化学习的算法示意图 作为重要前沿探索力量,OpenAI对于语言大模型的研发工作主要是在Transformer架构推出后开展,形成了一系列的技术进展。其中,GPT-1探索了解码器Transformer架构(decoder-onlyTransformer)在“预训练+微调”范式下的自然语言任务求解能力;GPT-2初步验证了扩大模型参数规模的有效性(扩展法则),并且探索了基于自然语言提示的多任务解决能力;GPT-3首次探索了千亿参数规模的语言模型效果,提出了基于“上下文学习”的任务解决方法;CodeX[25]使用代码数据对GPT-3进行微调,从而提升代码能力和复杂推理能力;InstructGPT[21]基于人类反馈的强化学习技术(RLHF),能够强化对于人类指令的遵循能力和人类偏好的对齐能力;ChatGPT与InstructGPT的技术原理相似,进一步引入了对话数据进行学习,从而加强了多轮对话能力;GPT-4[26]能够处理更长的上下文窗口,具备多模态理解能力,在逻辑推理、复杂任务处理方面的能力得到显著 改进,但其他相关技术细节未予披露。 随着GPT-4的成功,语言大模型对于多模态领域也产生了重要影响,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言能够带来模型在多模态理解、生成、交互能力上的。 1.2大模型技术的生态发展 大模型服务平台正向个人开放及商业落地应用延伸,不同公司互有侧重,为用户提供了多种获取大模型能力的途径。OpenAIAPI较早地面向公众开放的大模型服务平台,用户可以通过API访问不同的GPT模型来完成下游任务。Claude系列模型是由Anthropic开发的闭源语言大模型,目前包含Claude和Claude-Instant两种模型可供选择。该系列模型通过无监督预训练、基于人类反馈的强化学习和ConstitutionalAI技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。Claude最高支持100K词元的上下文,而Claude-2更是拓展到了200K词元的上下文。文心一言是基于百度文心大模型的知识增强语言大模型,提供APP、网页版、API接口等多种形式的开放服务。文心一言还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。讯飞星火认知大模型具有开放式知识问答、多轮对话、逻辑和数学能力,并且具有较强的对代码和多模态的理解能力。讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”,可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。