您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机行业深度研究:大模型时代,AI技术向效率提升演进 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度研究:大模型时代,AI技术向效率提升演进

信息技术2023-02-27王倩雯、孟灿国金证券金***
计算机行业深度研究:大模型时代,AI技术向效率提升演进

投资逻辑 我们2022年12月发布的报告《深度学习算法:从多样到统一》中,阐述了自Google2017年提出Transformer以来,深度学习开始进入大模型时代。大模型时代的前沿技术发展围绕着提升效率而展开,包括:1)提升训练方法效率:向无监督和半监督学习发展;2)提升数据效率:从追求数据规模向追求数据质量发展;3)提升开发效率:通过“预训练基础模型+微调”,挖掘现有大模型潜力,降低具体下游任务的开发成本;4)提升算力效率:从稠密机构向稀疏结构发展;5)提升训练的工程化效率:向并行训练和混合精度训练发展 训练方法:AI模型的训练方法主要包括监督学习和无监督学习两种典型方式,后随模型训练数据量的增加,衍生出使用大量未标注数据+少量标注数据的半监督学习方法。AI训练方法的发展历经“监督-无监督-监督-无监督/半监督”4个阶段,在目前的大模型阶段,无监督/半监督训练再次成为主流。 数据效率:随参数规模的增加,大模型在知识密集型任务中的效果提升显著。此外,当模型参数超过特定阈值后,模型会对特定任务表现出“涌现”现象。目前学界和业界已意识到数据质量的重要性或高于数据数量,AI大模型需要在保证数据质量的前提下进行数据数量和参数规模的扩充。 开发效率:AI大模型的流行提出了“基础模型+微调”的AI开发新范式。相较于过去“一场景、一任务、一模型”的开发模式,“基础模型+微调”具有数据需求量小、训练时间短、落地边际成本低等优点。微调技术的发展带动大模型由“以参数规模取胜”向“以高质量学习取胜”转变。 算力效率:AI架构可分为稠密结构和稀疏结构,其中稀疏结构可有效降低大模型对算力的消耗。2017年Google提出了混合专家方法MoE,使得模型在计算过程中只需激活部分神经网络;2022年6月Google发布的基于稀疏结构的多模态模型LimoE,已经在降低算力消耗的同时取得不亚于稠密结构的成绩。 工程化效率:伴随AI大模型参数量的不断提升,并行训练、混合精度训练等技术发展迅速。其中,国产AI框架百度PaddlePaddle提出的4D混合并行策略在MLPerf发布的稠密结构AI训练性能榜单中位列第一;通过使用16位浮点数代替32位浮点数进行训练,能够在同等模型表现的情况下实现训练时间减半。 投资建议 建议关注受益于AI算法进步,并能成功进行商业化应用的科大讯飞、商汤科技等公司;以及受益于AI算力需求、微调技术发展的海光信息、浪潮信息、海天瑞声等公司。 风险提示 海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期 内容目录 1.训练方法演进:无监督、半监督训练再次成为主流3 2.训练数据演进:从追求规模到追求质量6 3.开发方式演进:微调技术受到重视7 4.架构设计演进:从稠密结构到稀疏结构8 5.训练技术演进:并行训练与混合精度训练9 6.投资建议10 7.风险提示10 图表目录 图表1:监督学习与无监督学习方式对比3 图表2:LeNet-5卷积神经网络典型结构4 图表3:逐层无监督+BP有监督可解决梯度消失问题4 图表4:计算机视觉领域经典开源数据集5 图表5:自然语言处理领域的无监督学习方法5 图表6:MAE无监督学习方法在多个下游任务中优于监督方法6 图表7:知识密集型任务表现随参数规模提升7 图表8:AI大模型在复杂任务中表现出“涌现”现象7 图表9:InstructGPT/ChatGPT中的人类反馈强化学习技术8 图表10:稠密结构与稀疏结构对比9 图表11:混合专家方法示意9 图表12:百度PaddlePaddle4D混合并行策略示意10 我们2022年12月发布的报告《深度学习算法:从多样到统一》中,阐述了自Google2017年提出Transformer以来,深度学习开始进入大模型时代。本文旨在讨论大模型时代下,整个AI行业的技术演进的前沿发展方向。 小结而言,大模型时代的前沿技术发展围绕着提升效率而展开,包括:1)提升训练方法效率:向无监督和半监督学习发展;2)提升数据效率:从追求数据规模向追求数据质量发展;3)提升开发效率:通过“预训练基础模型+微调”,挖掘现有大模型潜力,降低具体下游任务的开发成本;4)提升算力效率:从稠密机构向稀疏结构发展;5)提升训练的工程化效率:向并行训练和混合精度训练发展。 1.训练方法演进:无监督、半监督训练再次成为主流 AI模型的训练方法主要包括监督学习与无监督学习两种典型方式,二者的区别在于是否使用带人工标注的数据集进行训练。此外,随着模型训练数据量的增加,标记大量样本成本过于昂贵,衍生出使用大量未标注数据+少量标注数据的半监督学习方式。 目前,虽然模型参数的扩大仍能提升模型表现,但扩大相同规模的参数较大模型发展初期的边际收益递减,提升数据质量是未来模型智能水平提升的关键。 图表1:监督学习与无监督学习方式对比 来源:CSDN云计算公众号,国金证券研究所 AI训练方法的发展历经“监督-无监督-监督-无监督/半监督”4个阶段,在大模型时代下,无监督/半监督训练再次成为主流方法。 2006年之前,浅层神经网络的训练以监督学习为主: 算法层面,这一阶段的神经网络尚停留于浅层,强调通过学习少量数据获得较强的性能,监督学习的表现显著优于无监督学习。此外,这一时期的支持向量机 (SVM)等浅层学习算法表现出色,性能优于同时期的神经网络算法,在学术界与产业界占据主流地位,而支持向量机通常采用监督学习方式,这也使得监督学习成为神经网络的首选训练方式。 数据层面,这一阶段的神经网络由于性能有限,无法处理复杂任务,应用场景较为简单。1998年YannLeCun等人研发的LeNet-5是这一时期最具代表性的神经网络模型,LeNet-5基于卷积神经网络算法开发,被当时大多数美国银行用于识别支票上的手写数字。简单的应用场景意味着特征信息易于获取,AI模型仅需要对少量数据进行学习就能获得较强的性能。同时,由于对数据量需求较低,标注数据并非难事。 图表2:LeNet-5卷积神经网络典型结构 来源:《DiveintoDeepLearning》(AstonZhang等,2021),国金证券研究所 算力层面,这一阶段的神经网络采用CPU进行训练,算力匮乏、算力成本高昂是这一时期AI发展的主要瓶颈。这使得对数据量要求较低、算力需求少的监督学习成为主流的神经网络训练方式。 2006至2011年,神经网络向深层次发展,无监督学习成为这一时期的主流方法: 算法层面,Hinton使用逐层无监督的方法缓解了梯度消失问题,神经网络得以迈向深层,性能上限极大提升,将神经网络用于处理复杂场景任务成为可能。此后,以Hinton为首的学者们开始尝试通过深度神经网络来模拟人的智能,无监督学习成为这一阶段神经网络的主流训练方式:1)无监督学习在核心思想上与逐层无监督方法类似;2)仿生观念在当时颇为流行,人类在学习时通常是无监督的。 图表3:逐层无监督+BP有监督可解决梯度消失问题 来源:《AFastLearningAlgorithmforDeepBeliefNets》(Hinton等,2006),国金证券研究所 数据层面,神经网络的应用场景日益丰富,包括无人驾驶、语音识别等。复杂场景意味着特征信息难以获取,AI模型必须对更多的数据进行学习才能够获得所需的性能。然而数据因素对于该时期主流神经网络训练方式的影响有限:1)面向复杂场景研究刚刚起步,数据积累较少,无监督学习方式不具备优势;2)深度学习方法尚未成熟,学者普遍认为算法水平决定一切,数据因素尚未得到足够重视。 算力层面,GPU加速神经网络训练的方法被提出,算力得到了较大的提升,但 GPU并没有成为主流的训练硬件。 这一阶段的神经网络在算法上迎来了突破,解锁了神经网络处理复杂问题的潜力,无监督学习主要是作为梯度消失问题的缓解措施,并没有使得深度学习模型性能出现明显提升,算法是这一阶段制约人工智能发展的主要因素。 2012至2017年,AlexNet的成功使得监督训练再度流行: 算法层面,Hinton及其学生于2012年提出AlexNet模型,自此奠定了深度学习的经典训练范式。AlexNet采用了经典的CNN网络结构、使用ReLu激活函数、 对输入值进行有监督学习、并采用GPU对训练进行加速。由于AlexNet将ImageNet数据集上图像分类的错误率由26%降至15%,此后5年学术界均沿用AlexNet的范式进行深度学习训练,监督学习也因此成为了这一时期主流的神经网络训练方式。 数据层面,从这一时期开始,数据量被认为是提升AI智能水平的关键要素,以ImageNet为代表的开源标注数据集发展迅速,这类标注数据集提供的数据量已经足以满足当时绝大部分的AI训练需求,并且应用起来方便快捷,这使得监督学习更为流行。 图表4:计算机视觉领域经典开源数据集 数据集名称 数据量 数据集内容 ImageNet 1,420万张图像,涵盖2万多个类别 图像分类、对象检测 CIFAR-10 6万张图像,涵盖10个类别 图像分类 MegaFace 67万名人物,共475万张图片 人脸识别 MPII 2.5万张图像,涵盖410项人类活动 人体姿势识别 Flicker-30k 15.8万个众包字幕,描述了3.2万张图像 图像与图像描述 MSCoco 32.8万张图像,250万个标记实例 对象检测、分割、图像描述 来源:Paperswithcode,国金证券研究所 算力层面,AlexNet模型的成功在学界与业界推广了GPU加速人工智能训练的新模式,算力瓶颈得到极大缓解。 此阶段神经网络的发展主要由算法创新驱动,由标注数据提供训练支持,模型性能得到较大提升。 2017年至今,Transformer开启大模型时代,无监督和半监督学习再次兴起: 2017年Transformer问世后,深度学习对数据的需求量爆发增长,无监督学习方法成为了这一时期的主流训练方式。在数据量与模型表现高度关联的大模型时代,高效的无监督学习算法能够显著提高模型智能水平,无监督学习也由此迎来了飞速发展。 在自然语言处理领域,无监督学习技术发展较快。2018年,在Transformer架构问世一年后,基于无监督学习的BERT、GPT等大规模语言模型相继问世,并提出了自回归、MLM、NSP等无监督学习方法,这些方法的表现较好,一直沿用至今。 图表5:自然语言处理领域的无监督学习方法 模型名称 发布者 无监督学习方法 核心思想 GPT OpenAI 自回归 利用前文单向预测 BERT Google MLM、NSP 文本掩码,双向预测 来源:OpenAI,Google,国金证券研究所 在计算机视觉领域,无监督学习技术发展相对较慢。2020年,基于对比学习思想的MoCo问世,证明了无监督学习在计算机视觉领域能取得不亚于监督学习的效果。在此之后,基于对比学习的无监督学习方法不断演进,朝着结构更简单、对数据样本要求更低、更容易应用的方向发展,准确度也不断提升。 图表6:MAE无监督学习方法在多个下游任务中优于监督方法 来源:《MaskedAutoencodersAreScalableVisionLearners》(KaimingHe等,2021),国金证券研究所 2021年,FacebookAI(现MataAI)的何恺明等提出了MAE方法,该方法的核心思想与自然语言处理领域中的MLM方法相同,同样是随机掩盖图像信息,并在训练过程中对图像进行预测与重构。MAE方法对数据的泛化性更强,更善于处理大规模数据,将无监督训练的速度提高了3倍以上,在多个下游任务中表现比监督学习更好。 至此,无监督学习方法在自然语言处理、计算机视觉两个深度学习最重要的领域完成了统一;也由此结束了飞速发展期,转而进入缓慢发展阶段。 目前,国内外AI公司发布的大规模基础模型都采用了无监督学习方法。该方法放大了场景拥有者的竞争优势。在