您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海证券]:传媒行业通用预训练模型技术拆解-AIGC系列专题:“大模型+小样本”快速适配下游场景,“AI+传媒”的效力取决于适配与迭代 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒行业通用预训练模型技术拆解-AIGC系列专题:“大模型+小样本”快速适配下游场景,“AI+传媒”的效力取决于适配与迭代

文化传媒2023-03-29上海证券李***
AI智能总结
查看更多
传媒行业通用预训练模型技术拆解-AIGC系列专题:“大模型+小样本”快速适配下游场景,“AI+传媒”的效力取决于适配与迭代

证AIGC系列专题:“大模型+小样本”快 研 券速适配下游场景,“AI+传媒”的效力取 究决于适配与迭代 报 告——通用预训练模型技术拆解 增持(维持)主要观点 我们拆解ChatGPT技术模型后认为,GPT与应用层的结合属于“通用 行业:传媒 大模型+行业小样本”的技术范式,通过上游通用预训练语言模型及下 日期: 2023年03月29日 游任务知识迁移实现通用大模型与垂直应用的快速适配,形成独立且差异化的应用专属大模型。其中预训练大模型的构建可以将更多的资 分析师:陈旻 Tel:021-53686134 最近一年行业指数与沪深300比较 传媒 沪深300 21% 15% 10% 4% -103/22 -7% % 06/2208/2210/2201/2303/23 -12% -18% -23% E-mail:chenmin@shzq.comSAC编号:S0870522020001 行业动态 源和数据转移到上游,小样本学习可以提升模型迭代的速度并快速适配下游场景。 我们认为“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度。 适配程度是指:多模态的输入及输出是否匹配应用层的输入及输出。比如GPT-4属于“图+文”多模态输入+“文”单模态输出, 因此输入模态为“图或文”且输出模态为“文”的垂直应用更适配GPT-4。 迭代速度是指:应用层产生的“行业小样本”的数据量是否匹配大模型的迭代要求。根据我们对GPT模型的理解,比如BingAI产生的“行业小样本”源自Bing的搜索结果,ChatGPT产生的“行 业小样本”源自用户的反馈和互动。因此我们认为,对于超出GPT所使用的预训练数据库范围(2021年9月前)的事实性表述,BingAI反馈的是搜索的结果,ChatGPT反馈的是用户主动的观点,BingAI反馈的效果比ChatGPT更好。 相关报告: 《周观点:ChatGPT开放插件测试,“行业小样本”适配范围显著增加》 ——2023年03月26日 《2023W11周数据跟踪》 ——2023年03月20日 《周观点:OpenAI及百度先后发布生成式 AI,“大模型+小样本”适配垂类场景》 ——2023年03月19日 因此文字类/人声类(声音可有效转化为文字)输入及输出的应用或内容与以GPT为代表的生成式文本AI适配度最高。图片、视频、3D建模等更复杂的模态输出需要AI技术的进一步演进。对应到具体应用,我们认为(1)广告:适配场景包括搜索、虚拟数字人、文案类工作效率的提升等;(2)电商:适配场景包括智能客服、图文编辑、内容测评等;(3)游戏:适配场景包括智能NPC、IP化虚拟人等;(4)影 视:适配场景包括编剧、互动电影等。 我们认为AIGC可分为技术方(直接收益)及场景/应用方(直接&间接收益)两类,前者为AIGC相关技术直接研发及相关上下游(如算 力),变现模式预计包括会员付费、广告变现、B端变现等(如技术授权/服务/运维等);后者为AIGC技术与落地场景深度融合,场景/应用方利用AIGC技术获得直接收益或间接收益:(1)直接收益对应收入弹性,对应市场空间的增量;(2)间接收益对应利润弹性,对应利润率的提高。 投资建议 1、建议关注A股稀缺的优质内容型平台公司【芒果超媒】,有望成为传媒估值中枢锚。 2、建议关注拥有海外用户/业务,有望接入GPT的优质标的,如【汤姆 行业动态 猫】(全球用户)、【昆仑万维】(Opera)、【神州泰岳】(游戏出海 +NLP)、【吉宏股份】(跨境电商SaaS)、【华凯易佰】(跨境电 商)、【焦点科技】(跨境电商)、【蓝色光标】(出海)。 3、建议关注可与生成式图像AIMidjourney对标的【浙文互联】(米画)、【视觉中国】。 4、建议关注国内电商类的【新华都】(电商代运营)、【值得买】(内容测评)、【遥望科技】(虚拟人)、【壹网壹创】(电商代运营)、 【青木股份】(电商代运营)、【若羽臣】(电商代运营)、【丽人丽妆】(电商代运营)。 5、建议关注AIGC+游戏,如【三七互娱】、【完美世界】、【吉比特】、【盛天网络】、【世纪华通】、【巨人网络】;AIGC+影视,如 【百纳千成】、【欢瑞世纪】、【光线传媒】、【华策影视】、【上海电影】、【慈文传媒】、【中文在线】等。 6、建议关注【万兴科技】、【福昕软件】、【光云科技】、【力盛体育】。 风险提示 宏观经济风险、地缘政治风险、GPT与应用结合表现低于预期、AIGC行业发展不及预期等。 目录 1“大模型+小样本”协同进化,实现下游场景快速适配4 1.1SelfAttention:里程碑式进化,考虑全局又聚焦重点4 1.2上游任务:预训练语言模型,积累强大底层通用能力5 1.3下游任务:知识迁移调试,实现垂直领域微调适配8 2风险提示10 图 图1:基于Transformer的编码器框架5 图2:基于Transformer的解码器框架5 图3:“预训练+微调”机制解决NLP任务碎片化问题6 图4:监督调优(SFT)模型6 图5:训练奖励模型7 图6:通过近端策略优化对奖励模型进行强化学习7 图7:大规模预训练模型在多种模态数据的训练和下游任务应用中处于中心地位8 图8:基础模型将转换为适应模型以反映更新的信息、期望的行为或部署约束8 图9:迁移学习的过程9 人工智能技术正迅速发展,可以观察到的明显趋势是AI正从感知智能快速向以自然语言处理技术(NLP)为核心的认知智能迈进,并进一步推动了产业智能化革命。本文主要从技术底座的 角度,对通用预训练语言模型(GPT)的技术流程进行拆解,并从中归纳其能够成为自然语言处理技术领域中的重要模型之一的原因。 1“大模型+小样本”协同进化,实现下游场景快速适配 通用预训练语言模型(GenerativePre-trainedTransformer,简称GPT)是由OpenAI提出的一款非常强大的预训练语言模型。该模型的原理是通过利用Transformer特征抽取器,基于大规模语言模型进行训练的语言模型。目前该模型已经成为自然语言处理领域乃至整个人工智能领域中的基础模型,能够在复杂的自然语言处理任务中取得出色的效果,例如文章生成、机器翻译、提问回答等(截至22年11月)。 1.1SelfAttention:里程碑式进化,考虑全局又聚焦重点 OpenAI发表的论文《Attentionisallyouneed》中提出了一种新的注意力机制:Transformer的自注意力机制(SelfAttention)。Transformer是一种用于序列到序列(Sequence-to-Sequence)任务的神经网络模型,它使用了自注意力机制来计算输入序列和输出序列之间的关系。根据蓝海星智库,与循环神经网络(RNN)和卷积神经网络(CNN)相比,Transformer模型的主要优势在于能够捕获全局信息,进行并行计算,可用于处理和分析大型结构化数据集,适用于自然语言处理任务。 将人脑的注意力机制引入自然语言处理中,摆脱海量信息下 计算能力的掣肘。随着数据量和参数量越来越多,训练模型需要 记住的“信息”就会变多,模型变得越来越复杂,而计算能力依然是限制神经网络发展的瓶颈。人脑在面对海量信息时,会把注意力放在主要的信息上,这是大脑的注意力机制。把注意力机制运用到自然语言处理任务中,提出了Attention机制。从本质上来理解,我们认为Attention是从大量信息中筛选出少量重要信息,并聚焦到这些重要信息上,忽略不重要的信息,权重越大越聚焦于对应的值向量上,即权重代表了信息的重要性。 Transformer模型的核心结构是编码器(encoder)-解码器 (decoder),通过多层注意力增强机制提取文本特征。对于 Transformer最初应用的翻译任务而言,其过程为输入文本通过encoder编码,经过多层注意力增强机制提取特征后,学习并理解语句含义转为词向量,再由decoder解码,基于前文词向量生成文 本,完成翻译任务。 图1:基于Transformer的编码器框架图2:基于Transformer的解码器框架 资料来源:《AttentionIsAllYouNeed》,AshishVaswani,NoamShazeer等,上海证券研究所 资料来源:《AttentionIsAllYouNeed》,AshishVaswani,NoamShazeer等,上海证券研究所 Transformer模型推动计算结构从串行走向并行,优化计算能力和算法的限制。Transformer的主要优点是它可以并行地处理 输入序列中的所有位置,因此在训练和推理时都有着很好的效率。此外,Transformer没有使用循环结构,因此它不会受长序列的影响,并且在处理长序列时不会出现梯度消失或爆炸的问题。相比之下,基于循环的模型(例如基于LSTM的模型)可能在处理长序列时会出现问题,因为它们必须逐个处理序列中的位置,这会使它们的训练速度变慢。另一方面,Transformer在处理短序列时可能不如基于循环的模型那么准确,因为它没有循环结构可以保留先前位置的信息。 自然语言处理正在形成新的技术范式,任务可以分成上下游 进行区分。目前,预训练模型对下游任务的提升非常明显,自然 语言处理正在形成新的技术范式,即上游大规模的预训练模型配合下游任务的知识迁移调试。 1.2上游任务:预训练语言模型,积累强大底层通用能力 “预训练-微调”机制可以解决自然语言处理(NLP)任务碎片化问题,已经成为NLP领域主流范式。2018年以来,预训练语言 模型(PLM,Pre-trainedLanguageModel)及其“预训练-微调”方法已成为自然语言处理(NLP)任务的主流范式,该范式先利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模 型,再利用下游任务的有标注数据进行有监督学习微调模型参数,实现下游任务的适配。用一套机制(预训练+微调)解决NLP任务碎片化问题,大幅度提高研发效率,标志着NLP进入工业化实施 阶段。 图3:“预训练+微调”机制解决NLP任务碎片化问题 资料来源:澜舟科技,上海证券研究所 上游任务,即构建预训练语言模型,主要分为三个步骤:收集数据并训练监督策略模型、训练奖励模型、通过近端策略优化(PPO)对该奖励模型进行强化学习,以上构成了GPT的内核,即基于反馈指令的PPO强化学习。 1)第一步,收集数据,用来训练监督策略模型,即SFT模型。 在整个模型训练的步骤开始,先抽取样本进行小范围训练,并施以奖励或者惩罚,构建监督策略模型,该模型为预训练语言模型 的主模型。 图4:监督调优(SFT)模型 资料来源:《Traininglanguagemodelstofollowinstructions withhumanfeedback》,LongOuyang,JeffWu等,上海证券研究所 2)第二步,在数据库中收集比较性的数据,训练奖励模型。通过引入人类反馈强化学习(ReinforcementLearningfrom HumanFeedback,即RLHF)机制,由人工训练师进行打分,构建评价体系,也即训练奖励模型。 图5:训练奖励模型 资料来源:《Traininglanguagemodelstofollowinstructions withhumanfeedback》,LongOuyang,JeffWu等,上海证券研究所 3)第三步,通过近端策略优化(PPO)对该奖励模型进行强化学习。另取数据集,先由监督模型初始化近端策略优化(PPO,ProximalPolicyOptimization)模型,之后让模型作出回答,并由 奖励模型对模型进行打分并排序,再通过PPO算法进行强化。 图6:通过近端策略优化对奖励模型进行强化学习 资料来源:《Traininglanguagemodelstofollowinstruc