大语言模型:NLP技术的奇点时刻。语言模型的核心是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。我们将深度学习应用于NLP领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中,ChatGPT的横空出世开启了“预训练+提示”的新范式,这主要得益于OpenAI对生成类模型(GPT)和算法规模化(Scalability)这两个基础技术路线的成功押注,大语言模型“涌现”出了解决复杂问题的通用能力,催生了本轮全球范围内的生成式AI浪潮。 大模型应用:数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的实践方法,并对其优劣进行了比较分析。除了获取外部数据外,通过增加代理能力(Agent),让大语言模型具备自主理解、规划、执行复杂任务的能力,同时与计算机内部环境,甚至物理世界进行交互,这也将显著打开大模型应用的想象空间。此外,我们认为提升模型支持的上下文长度是应用创新的关键靶点,模型小型化也将助力大模型应用的商业化落地。 应用分析框架:通用能力与外部能力的组合。大模型应用可以被总结为,在基座模型的通用能力上,叠加一些其他的可实现的外部能力,这就包括上述的数据感知(可连接其他外部数据源)和代理能力(允许大模型与环境互动)。 根据这一范式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此,展望未来大模型新应用的靶点可总结为:①通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)、 ②外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等) 投资建议:AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,重点公司包括金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。 AI在B端加速落地,具备细分行业数据与客户资源卡位的企业有望优先受益,重点公司包括恒生电子、拓尔思、税友股份等。算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:浪潮信息、中科曙光、优刻得、紫光股份、海光信息、寒武纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技术优势的星环科技等。 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 1大语言模型:NLP技术的奇点时刻 1.1技术探索:深度学习加速推进数据的无损压缩 人类对机器智能的探索由来已久。如何让机器像人类一样思考,获得与人类相当的智能,一直是全球人工智能学者毕生追求的圣杯。自英国数学家阿兰·图灵在1950年提出了“机器能思考吗”这一跨世纪的命题以来,人类就从未停止对机器智能的探索。从最简单的统计规则方法,到借鉴人类大脑生物结构的神经网络模型,再到如今拥有千亿级参数的超大规模预训练模型,深度学习因其能够实现非线性空间的有效变换,并能利用GPU等硬件实现加速计算,因而成为人工智能研究领域的核心主线。无论是早期的RNN,还是其改进后的变体LSTM,亦或是本轮生成式AI浪潮的起源Transformer,它们本质上都是用一个更有效的神经网络去实现数据的无损压缩,而数据的压缩能力或许就是机器智能的一种展现。 图1.人工智能底层算法的探索历程(1958-2017年) 1.2技术应用:预训练语言模型成为NLP主流 从单一小模型到预训练模型的范式转移。语言模型的本质是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。 早期的研究者发明了Word2Vec,一种用于将自然语言中的单词表示为向量的技术,它基于神经网络,并且可以通过训练大规模语料库来学习单词之间的语义和语法关系,是深度学习应用在NLP领域的早期范式; 随着对长文本特征提取能力更强,计算效率更高的神经网络的提出,研究者开始尝试用更多的数据去训练一个能力更强的模型——预训练模型,然后通过迁移学习的方法使其适用于下游特定的任务。这就是Google在2018年提出的BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器)的核心思想; 然而,OpenAI在这一时期坚定押注于GPT(Generative Pre-Trained Transformer,基于Transformer的单向解码器)这一路线,坚信通过优化“下一个词预测”,以及扩大训练模型的参数量和数据量,机器能够对文本语料拥有与人类相似的“理解”能力。当前,OpenAI与ChatGPT的成功,使得运用大语言模型做“预训练+提示”的范式,逐步取代了BERT时代“预训练+下游任务改造”的范式,成为了NLP业内新的主流。 图2.自然语言处理(NLP)发生的三次技术范式转移 1.3技术跃迁:大语言模型可能打开通往AGI之路 直到2022年底ChatGPT横空出世,学界和工业界开始意识到,OpenAI对生成类模型(GPT)和算法规模化(Scalability)的两个基础技术路线押注,可能是让机器获得智能的可行路径,甚至是打开通往通用人工智能(AGI,ArtificialGeneral Intelligence)这一终极理想的金钥匙。因此,我们有理由相信,当前以ChatGPT为代表的大语言模型开启的本轮科技浪潮,其重要性可能高于过去任何一次AI技术的突破,实现AGI的愿景可能已并不遥远。当然,技术的突破与未来的潜在瓶颈也正都源于此,大模型与生俱来的Hallucination(幻觉)使其输出的内容天生具有可靠性低的特点;另一方面,大模型的模型规模化能力的天花板也有待进一步探索。因此,我们认为提升模型可靠性和提升模型性能共同构成了大模型未来迭代的核心靶点。 图3.本次以GPT为代表的生成式AI技术进步路线图 2OpenAI与GPT:算法、工程、商业的融合 2.1GPT系列模型的发展历程:千锤百炼,终见“涌现” 对GPT路线的执着探索(GPT-1~3):2018年6月,OpenAI推出基于Transformer Decoder改造的GPT-1,但其在下游理解类任务的性能远低于同年10月Google推出的基于Encoder的BERT;2019年GPT-2推出后,尽管性能仍不如BERT,但OpenAI发现Zero-shot和Few-shot的方式可能可以直接训练一个通用的语言模型;到了2020年的GPT-3,OpenAI决定直接将模型参数扩大到了175B,这一举动正式掀开了大语言模型的序幕; 涌现能力的出现(GPT-3.5):OpenAI在GPT-3的基础上通过融合指令微调训练得到的InstructGPT、基于代码数据训练的Codex、以及基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback),训练得到了GPT-3.5,某种意义上实现了大模型能力的“涌现”(在某些复杂能力上实现突破)。GPT-3.5也成为了开启本轮生成式AI浪潮的爆款产品ChatGPT背后的核心功臣。 AGI的曙光已现(GPT-4):2023年3月,OpenAI发布了基于GPT-3.5的SOTA(State-Of-The-Art)模型GPT-4,该模型在多模态和可靠性方面实现了进一步扩展。从泛化能力的角度,GPT-4在创造力、图片理解能力、长文本处理能力和回答准确性方面都有所提升;从工程能力的角度看,通过与Azure在算力设施上深度定制合作,GPT-4能够以千分之一的计算量去预测在一定计算规模下的性能(预测最终模型的Loss);从可靠性的角度,GPT-4自去年8月训练完成后,花费了大量时间做对齐(Alignment),甚至不惜牺牲部分性能以提升其内容输出的可靠性。 图4.OpenAI的GPT系列模型发展历程 2.2如何训练一个ChatGPT:预训练获得“智商”,指令微调提升“情商” 模型的训练可分解为预训练基座模型和基座模型的微调。基座模型(Base Model)是经过海量数据预训练(Pre-train)所得到,它具备一定的通用能力,并将消耗千卡级别的GPU算力。这一阶段模型获得了知识,具备了“智商”;但基座模型往往不能很好地胜任下游的各式任务,以ChatGPT为例,模型需要通过指令微调,才能具备与人类流畅对话的能力(其中数据集需要包含各种与人类行为、情感相关的指令和任务),使得基座模型在预训练阶段获得的能力被进一步解锁/激发出来,从而实现从“智商”到“情商”的跨越。值得一提的是,模型微调不可避免将带来某些性能上的取舍,例如OpenAI在他们的指令微调论文中称其为“对齐税” (alignment tax)。 图5.GPT模型训练流程 2.3模型智能的“涌现”是生成式AI浪潮的充要条件 模型能力的涌现是生成式AI浪潮的充要条件。过去,模型的表现被认为与模型的规模之间服从Power Law,即随着模型规模指数级上升,模型性能只能线性增长;但Google的研究者在2022年发现,当模型规模达到某个阈值时,模型对某些复杂问题的处理性能突然呈现快速增长,这种现象则被称为Emergent Abilities,即涌现能力。例如,研究者发现当大语言模型规模达到一定程度时,思维链提示(Chain of Thought prompting,CoT)可以显著提升大语言模型的性能,尤其适用于处理涉及数学或推理的复杂任务: Zero-shot-CoT:在prompt提问的结尾只需附加“Let's think step by step”这几个词; Few-shot-CoT:在prompt中给与一些关键推理步骤的示例,让模型学习相应的推理过程; 我们认为,CoT的意义在于模型可能已经学到了底层的推理过程而非统计意义上记住了输入-输出的概率分布,这是模型拥有“智能”的一个重要体现,也显著打开了大语言模型未来应用的可为空间。 图6.当模型规模达到一定程度时将会出现“涌现”现象 图7.思维链提示可以显著提升大语言模型的性能 3大模型应用:数据感知与代理(Agent)能力 3.1外部数据:三条融合垂域数据打造大模型的技术路径 大模型与垂直领域Know-how的融合是商业化落地关键。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。目前开发者主要采用三种思路: 方案①:先通过大量的垂域语料数据+通用语料数据做预训练,再针对性地做指令微调(从头训练模型); 方案②:在一个通用大模型的基础上,通过指令微调将垂域知识训练到模型的参数中(小幅改动模型); 方案③:在一个通用大模型的基础上,通过上下文学习(In-Context Learning)将垂域知识放在模型的提示词Prompt中(不训练模型,用模型)。 图8.打造垂域模型的三种基本方法 方案①实现难度最大,模型对垂域知识的零样本学习能力最强(Zero-shot),算力消耗集中在预训练。方案①对垂域数据的质量和数量要求都很高,且需要从头训练一个基座模型的工程能力和算力储备,但是一旦训练成功,模型推理泛化能力理论上是最好的(大语言模型的知识是在预训练阶段获得的)。因此,方案 ①适合于有大量垂域数据和算力购买能力的大型公司; 方案②实现难度次之,模型能够具备一定的垂域知识零样本学习能力,算力消耗集中在微调和推理。方案②本质是借鉴了Bert做下游任务改造的思路。然 而,对大模型的微调实则将预训练阶段获得的能力以某种方式激发出来,但这种能力的激发是有代价的,包括但不限于会出现原有知识/能力的遗忘。此外,微调后的模型通用能力上限依然受制于基座模型本身。因此,方案②适合具有丰富调节参数经验团队的模型或应用厂商; 方案③实现难度最低,模型不具备垂域知识的零样本学习能力