大模型参数量级飞涨,相应训练集需同比提升。李开复定义AI2.0时代的特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各领域将其专业化。据相关论文,当模型的参数量大于某阈值,会展现出类似推理、无监督学习等未曾出现的能力,这种现象被称为“涌现”,因此目前大语言模型参数均在十亿量级以上。同时,Deepmind研究表明,模型参数的上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此,大模型参数在十亿级以上发展并受限于优质数据集的增速是AI发展的必然趋势。 大模型增长挑战芯片算力和内存,无法实现完整端侧部署。大模型训练和推理的三大瓶颈是算力、显存和通信,根据我们的测算,算力方面GPT-3训练所需算力为121528TFLOPS,若30天内完成,需要1558颗A100。内存角度,GPT-3训练至少需要3.2T内存,至少44张A100,推理任务则主要受显存限制,需要4至8张A100,因此完整的模型无法在终端上离线运行。 优化后大模型可在旗舰机型芯片上运行,AI落地有望推动新一轮换机潮。 AI部署本地化具有必要性,优势包括更低的延迟、更小的带宽、提高数据安全、保护数据隐私、高可靠性等。完整的大模型仅参数权重就占满一张80G的GPU,但是通过量化、知识蒸馏、剪枝等优化,大模型可以在手机本地实现推理。高通团队使用骁龙8Gen2部署StableDiffusion,实现本地运营15秒出图,证明了大模型本地化运行的可能,也体现出目前手机芯片的局限性。根据IDC数据,1Q23全球手机销量中主处理器频率超过2.8GHz的占比36%,价格在1000美金以上的占比13%,即旗舰机型占比较低,随着AI大模型在边缘端落地,有望推动新一轮换机潮。 以大语言模型为核心,以语言为接口,控制多AI模型系统,构建“贾维斯”式智能管家。我们认为大语言模型不仅可以实现对话、创意,未来也有望作为众多复杂AI模型的控制中心,同时也是接受用户指令的交互窗口,实现《钢铁侠》电影中“贾维斯”式综合智能管家。23年5月,Google推出PaLM 2轻量版Gecko,其可在最新的旗舰机型上离线运行。同月,OpenAI首次推出ChatGPT移动端应用,各家大厂正式进入AI模型移动端创新、竞争时期。 智能音箱、全屋智能中控屏、手机、MR等均有望成为这一时代的交互入口。 产业链相关公司:半导体:晶晨股份、瑞芯微、全志科技、北京君正、兆易创新;消费电子:传音控股、歌尔股份、福立旺、闻泰科技、创维数字。 风险提示:AI技术发展不及预期;边缘端芯片发展不及预期。 百亿参数大模型具备涌现能力,训练数据需等比例提升 大模型的参数下限:AI2.0时代,基础大模型参数指数级增长 李开复提出本次由GPT-4、ChatGPT引发的AI新机遇与之前有所不同,属于AI2.0时代。AI 1.0时代具体指的是以CNN(卷积神经网络)为核心,机器视觉和自然语言处理快速发展的时期,暴涨的数据量伴随搜集、清洗、标注整个过程的成本增加,且单一领域的数据集和模型形成孤岛,每个领域和应用的优化都是割裂的,难以形成“通用”。 AI2.0时代的特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各个应用领域将其专业化。具体来说有三个特点:1)对于拥有的超级海量的数据,无需进行人工标注,即进行自监督学习;2)基础模型规模非常大,参数规模从十亿到千亿级别;3)训练出的基础模型具有跨领域知识,而后通过微调用降低成本的方法来训练,以适应不同领域的任务。AI2.0的巨大跃迁之处在于,它克服了前者单领域、多模型的限制。 图1:AI2.0时代的特征是通过超级海量数据无需标注训练一个大模型 以大语言模型(LargeLanguageModel,LLM)为例,语言模型已经存在了几十年,从最基本的N-gram模型(语言由简单的向量表示),到更复杂的RNN模型、LSTM神经网络,再到2017年Google Brain提出Transformer。Transformer不再基于对每个单词的单独理解进行处理,而是将句子和段落作为一个整体进行处理,使LLM能够从自然语言中深入理解人类的意图,并让一系列应用成为可能:从描述中生成艺术创作、将大量非结构化数据提炼成简洁的摘要、更准确的翻译、回答复杂的查询等。 以模型中的参数数量衡量,大型语言模型的参数在过去五年中以指数级增长。模型的性能非常依赖于模型的规模,具体包括:参数数量、数据集大小和计算量,模型的效果会随着三者的指数增加而线性提高,这种现象被称为ScalingLaw(缩放能力)。 图2:过去五年LLM模型参数快速增长 图3:参数量的指数提升线性提高模型性能 当模型的参数量大于一定程度的时候,模型能力会突然提升,并拥有一些未曾出现的能力,如推理能力、无标注学习能力等,这种现象被称为涌现能力。在Jason Wei的论文中,具体定义为“在小模型中没有表现出来,但是在大模型中变现出来的能力”。“涌现能力”只是对一种现象的描述,而并非模型的某种真正的性质,出现涌现能力的原因也尚待探索。 其中一种观点认为,大模型的涌现能力来自于其不连续的评价指标。如果换成更为平滑的指标,相对较小的模型的效果也并非停滞不前,规模在阈值以下的模型,随着规模的提高,生成的内容也在逐渐靠近正确答案。斯坦福的研究人员将NLP中不连续的非线性评价指标转为连续的线性评价指标,结果模型的性能变得更加平滑、可预测。具体来看,10以上模型能力提升加速,因此目前来看10几乎是大语言模型参数量的下限。 图4:当模型的参数量大于一定程度时模型效果会突然提升 图5:小模型的性能也随着规模扩大而逐步提高 大模型的参数上限:参数的增加需要同等量级的训练集增加 参数数量的增速应与训练token数量的增长速度大致相同,从而让模型损失(L)实现最小化,性能最大化。Deepmind在《TraningCompute-OptimalLargeLanguage Models》中,通过在5到5000亿个token上训练400多个语言模型,参数个数范围从7000万到160亿,发现模型大小和训练集数量应该相等地缩放,从而达到最佳效果。目前看来,单一语言模态的大模型,100B量级的参数足以满足大多数知识检索和浅层推理的需求,但充分释放这些参数的全部潜力需要1000B量级的训练token。 作为验证,通过训练一个预测的计算最优模型Chinchilla来检验这个假设,该模型使用与Gopher使用相同的FLOTs,但具有70B个参数和4倍多的数据,最终在大量下游评估任务中,Chinchilla表现显着优于Gopher,且其缩小的模型尺寸大大降低了推理成本,并极大地促进了下游在较小硬件上的使用。 图6:2022年最大的五个transfomer模型条件 图7:各模型位于LM损失等高线图上的位置 因此,优质大模型的训练,高质量的大数据集是必要条件。目前主要的数据获取渠道是公开的论坛,例如谷歌的LaMDA模型,在论文中表示其预训练数据50%对话数据来自公共论坛;12.5% C4 数据;12.5%的代码文档来自与编程相关的网站; 12.5%维基百科;6.25%英文网页文档;6.25%的非英语网络文档,数据集中的单词总数为1.56T,而OpenAI使用了45T数据。未来如何获得高质量的训练集始终是各家大厂的首要竞争领域。 图8:LaMDA模型训练数据来源 表1:GPT参数和训练集规模快速增长 大模型训练对硬件的挑战:算力、内存和通信 内存方面,大模型训练的内存可以大致理解为参数、优化器状态、激活、梯度四部分的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用原因,动态内存通常是静态内存的数倍。 图9:静态内存 图10:动态内存 我们可以粗略的计算训练1750亿参数的GPT3所需内存,大约需要3.2TB以上。 静态内存方面,大多数Transformer都是以混合精度训练的,如FP16+FP32,以减少训练模型内存,则一个参数占2个字节,参数和优化器状态合计占用内存1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静态内存的数倍。更简洁的估算方法,可以假设典型的LLM训练中,优化器状态、梯度和参数所需的内存为20N字节,其中N是模型参数数量,则1750亿参数的GPT3大概需要3.2TB内存。 推理所需内存则较小,假设以FP16存储,175B参数的GPT3推理大约需要内存327G,则对应4张80GA100,如果以FP32运算,则需要10张。 表2:大语言模型的计算 图11:模型大小与设备内存的增长示意图 算力方面,根据OpenAI在2020年发表的论文,训练阶段算力需求是模型参数数量与训练数据集规模乘积的6倍:训练阶段算力需求=6×模型参数数量×训练集规模;推理阶段算力需求是模型参数数量与训练数据集规模乘积的2倍:推理阶段算力需求=2×模型参数数量×训练及规模。 训练阶段:考虑采用精度为32位的单精度浮点数数据进行训练和推理。以A100PCle芯片为例(H100PCle芯片同理),根据前述公式,GPT-3训练所需运算次数为:样本token数3000亿个*6*参数量1750亿个=315*10^21FLOPs;考虑训练时间要求在30天完成(训练时间为2592000秒),则对应GPT-3训练所需算力为121528TFLOPS;结合A100有效算力78TFLOPS,得到所需GPU数量为1558个,对应AI服务器为195台。 推理阶段:按谷歌每日搜索量35亿次进行估计,假设每次访问提问4次,每次提问+回答需处理字数425字,平均每个字转换为token比例为4/3,则每日GPT-3需推理token数为79330亿个,则推理所需运算次数为4760*10^21FLOPs;考虑推理时间以每日为单位(推理时间为86400秒),则对应GPT-3推理所需算力为55*10^6TFLOPS; 结合A100有效算力78TFLOPS,得到所需GPU数量为706315个,对应AI服务器为8.8万台。 图12:算力计算公式 图13:近年推出的大预言模型有效算力比率 表3:大预言模型算力测算 因此,训练大模型必然需要采用分布式方案。不仅要满足算力的需求,还要解决上千块GPU的分布式训练问题,需要考虑到上百台服务器之间的通信、拓扑、模型并行、流水并行等,这也是复现GPT-3的核心难点,模型发布后一年也只有NVIDIA、微软等大厂成功复现,目前开源的GPT模型库就主要是NVIDIA的Megatron-LM和微软的DeepSpeed。 终端部署具有必要性,轻量化技术优化模型 超低时延的智慧场景,终端部署具有必要性 云计算和边缘计算的主要区别在于处理所在的位置。边缘计算,处理发生在网络边缘,更靠近数据源,而云计算,处理发生在数据中心。边缘计算是指在尽可能靠近数据源或终端的地方捕获和处理数据。通过在数据源的物理位置附近放置服务器或其他硬件来处理数据,在本地完成处理而不是在云端或集中式数据中心,它能最大限度地减少延迟和数据传输成本,允许实时反馈和决策。 图14:边缘计算的应用场景 图15:云计算与边缘计算的区别 边缘计算的历史可以追溯到上世纪90年代,当时内容分发网络(CDN)充当分布式数据中心。但CDN仅限于缓存图像和视频,而不是海量数据工作负载;2000年左右,智能设备的爆炸式增长给现有IT基础设施带来了压力,诸如点对点(P2P)网络的发明减轻了这种压力,在这种网络中,计算机无需通过单独的集中式服务器计算机即可连接并共享资源;10年代,大公司开始通过公共云向终端用户出租计算和数据存储资源;2020年后,边缘计算融合了CDN的低延迟能力、P2P网络去中心化平台以及云的可扩展性和弹性,共同构建了一个更高效、更有弹性和更可靠的计算框架。 图16:云计算与边缘计算 目前,越来越多的场景将计算基础设施更靠近传入数据源