证券分析师 传媒 优于大市(维持) 马笑 资格编号:S0120522100002 邮箱:maxiao@tebon.com.cn 证券研究报告|行业专题 传媒 2023年02月10日 AIGC专题一:探析AIGC的技术发展和应用 投资要点: 研究助理 AIGC成为新的内容生产方式,跨模态生成值得重点关注。区别于PGC与UGC,AIGC是利用人工智能技术自动生成内容的新型生产方式。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态 生成,细分场景众多,其中,跨模态生成需要重点关注。 5% 0% -5% -10% -15% -20% 市场表现 沪深300 自然语言处理(NLP)赋予了AI理解和生成能力,大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG)。以ELMo、BERT、GPT为代表的预训练模型,降低了NLP的技术门槛。ELMo解 决了“一词多义”的问题;BERT通过MLM(类似于完形填空)和NLP(判断句子是否相连)进行预训练,增强了上下文的理解能力。GPT通过预测下一个词,获得了生成能力;GPT-3在此基础上使用了更大的数据和更大模型,无需针对下游任务进行传统的微调,并且采用了小样本学习提升生成效果。 -24%2022-022022-062022-10 -29% 相关研究 1.《传媒互联网行业周报:ChatGPT加速商业化,AIGC或带来泛娱乐和互联网的革新》,2023.2.5 2.《分众传媒(002027.SZ)首次覆盖报告:当风轻借力,一举入高空》,2023.2.1 3.《腾讯控股(0700.HK)22Q4业绩前瞻及观点更新:宏观经济波动致收入端承压,降本增效成果释放带来利润端高增速》,2023.1.31 4.《百度集团-SW(9888.HK)22Q4及2022年全年业绩前瞻:疫情扰动或致经营短期承压,展望后续收入业绩双端修复》,2023.1.30 5.《春节档期票房超65亿,行业持续复苏估值业绩双升可期》,2023.1.28 ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从 GPT-3.5系列中的模型进行微调产生的聊天机器人模型。它能够通过学习和理解人 类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。 生成模型赋予了AI创造力,扩散模型是最前沿的技术之一。AIGC的快速发展归功于生成算法领域的技术积累。GAN的核心思想是“生成”与“对抗”,相比传统的深度神经网络,GAN能产生更好的生成样本,但是仍需解决应用中的问题。扩散模型较GAN更接近人的思维模式,是基于马尔科夫链,通过学习噪声来生成数据。扩散模型实现了跨模态应用,包括OpenAI的GLIDE和DALL·E2、谷歌的Imagen、StabilityAI的StableDiffusion等。 人工智能由单模态智能,向多种模态融合方向发展。建立统一的、跨场景、多任务的多模态基础模型或将成为人工智能发展的主流趋势之一。CLIP模型将语言信息和图像信息联合训练,能够链接文本和图片,成为跨模态生成应用的一个重要节点, “CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。2022年,微软提出的BEiT-3多模态基础模型,在视觉-语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。多模态提高了基础模型的灵活性,使其在其他模态的应用中发挥新的潜质。 未来,值得关注的技术要素包括:长文本生成、开放式文本生成、NeRF模型、扩散模型、跨模态大型预训练模型(支持的模态数据类型、模态对齐架构设计、支持的下游应用)、小样本学习及自监督算法、强化学习及环境学习等。 投资建议:把握AIGC技术催化和商业落地的投资机会。技术发展有望促进生产效率提升,并进一步创造新的消费和需求,有利于文娱内容和互联网行业。在AIGC和ChatGPT方面,我们建议持续关注技术发展和应用情况,把握技术催化和商业化落地带来的投资机会:1)具备AIGC和ChatGPT的技术探索和应用的公司:百度集团-SW、商汤-W、万兴科技、拓尔思等;2)具有海量内容素材且具有AIGC探索布局的,图片/文字/音乐/视频内容及平台公司腾讯控股,阅文集团、美图公司、视觉中国、中文在线、汉仪股份、昆仑万维、天娱数科、风语筑等。 风险提示:技术发展不及预期、监管政策变化、知识产权相关问题等。 请务必阅读正文之后的信息披露和法律声明 内容目录 1.AIGC的跨模态生成值得重点关注5 2.基于大模型预训练的NLP赋予了AI理解和生成能力5 2.1.ELMo将输出的词向量作为特征,解决了“一词多义”7 2.2.BERT通过上下文预训练,提高了理解能力8 2.3.GPT-3利用超大数据和超大模型,省去了微调的过程9 2.3.1.ChatGPT趋近人类价值观及意图,有望进一步商业化11 3.基于大模型的主流生成模型赋予了AI创造力12 3.1.GAN是基于“生成”与“对抗”提出的生成模型13 3.2.扩散模型更接近人的思维模式,实现了跨模态应用13 3.2.1.扩散模型实现了从文本到图像的跨模态应用14 4.人工智能由单模态智能,向多种模态融合方向发展16 5.AIGC技术不断发展,有望带来更多商业化价值16 6.投资建议:把握AIGC技术催化和商业落地的投资机会18 7.风险提示19 图表目录 图1:内容生产模式的四个发展阶段5 图2:自然语言处理的发展历史6 图3:大规模预训练模型大幅提升研发效率6 图4:BERT的每一层都是双向模型;GPT为单向模型;ELMo为单项模型叠加7 图5:大规模预训练语言模型的发展趋势之一是参数量不断增加7 图6:ELMo基于RNN,双向RNN可以利用前后文信息8 图7:ELMo将词嵌入作加权和,给出最终的词向量8 图8:ELMo解决了一词多义问题,且兼顾语义与词性8 图9:BERT的结构是Transformer中的Encoder部分9 图10:BERT采用了预训练+微调的两阶段模型9 图11:NSP任务中输入向量生成示意图9 图12:GPT模型结构10 图13:GPT-3将例子直接作为模型输入10 图14:FewShot较ZeroShot在模型增大后表现提升更显著10 图15:GPT-3.5的进化树11 图16:RLHF工作原理11 图17:ChatGPT的训练模式11 图18:ChatGPT能够进行对话,甚至能完成撰写代码12 图19:ChatGPT上线2个月后月度用户数量破1亿12 图20:OpenAI推出付费订阅项目ChatGPTPlus,价格$20/月12 图21:不同生成模型之间的区别13 图22:GAN的基本思想13 图23:训练后的GAN生成案例13 图24:DiffusionModel基于马尔科夫链,通过学习噪声来生成数据14 图25:GLIDE可以进行文本到图像的生成14 图26:GLIDE可以执行图像修复14 图27:unCLIP模型示意图15 图28:DALL·E2的生成案例15 图29:Image的架构示意图15 图30:Image的生成案例15 图31:StableDiffusion生成效果16 图32:StableDiffusion2.0引入了图像深度扩散模型16 图33:AIGC相关技术场景及成熟度分类17 表1:ELMo、BERT与GPT系列的对比6 表2:国外主要AIGC预训练模型一览表17 表3:部分公司在AIGC领域的布局(截至2023/2/6)18 1.AIGC的跨模态生成值得重点关注 根据中国信息通信研究院发布的《人工智能生成内容(AIGC)白皮书》,目前,对AIGC这一概念的界定,尚无统一规范的定义。国内产学研各界对于AIGC的理解是“继专业生成内容(ProfessionalGeneratedContent,PGC)和用户生 成内容(UserGeneratedContent,UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。传统AI关注对于现有数据的分析能力,而AIGC注重生成创造新事物的能力。按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中,跨模态生成需要重点关注。 自然语言处理(NLP)与生成模型是AIGC发展的重要技术支柱。自然语言处理增强AIGC的认知能力,使得人类语言与计算机语言之间实现互通;生成模型升级AIGC内容创作能力,使生成的作品更接近人类思维与偏好。 图1:内容生产模式的四个发展阶段 资料来源:《AIGC发展趋势报告2023》,德邦研究所 AIGC近年来的快速发展依赖于生成模型、预训练模型和多模态等技术的融合。生成模型从GAN发展到后续的扩散模型,不断趋近人的思维模式。预训练模型提高了AIGC技术的灵活性和效果质量。基于大量数据训练的巨量参数模型可 以轻松应用到下游任务中,降低了使用门槛和技术成本,推动了自然语言处理、计算机视觉等技术的发展。多模态技术提高了AIGC的通用性,使得图像、声音、语言等互相融合。 2.基于大模型预训练的NLP赋予了AI理解和生成能力 自然语言处理(NLP)主要研究用计算机来理解和生成自然语言的各种理论和方法,属于人工智能领域的一个重要甚至核心的分支。自然语言处理(NLP)的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG);四大任务 是序列标注(分词、语义标注等)、分类任务(文本分类、情感计算等)、句子关系判断、生成式任务(机器翻译、文本摘要等)。人工智能应用领域的快速拓展对自然语言处理提出了巨大的应用需求。 2018年,NLP正式进入“预训练”时代,简化了下游任务模型的接入,降低了NLP的技术门槛。预训练是指,首先在一个源任务上训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调,从而达到提高下游任务 准确率的目的。预训练的优势在于,一是对庞大的文本语料库进行预处理,可以学习通用的语言表征,帮助完成下游任务;二是预训练提供了更好的模型初始化,带来更好的普适性并加速与目标任务的衔接;三是,预训练可以看作是一种正则化方法(regularization),以避免对小数据的过度拟合。 图2:自然语言处理的发展历史图3:大规模预训练模型大幅提升研发效率 资料来源:车万翔等《自然语言处理新范式:基于预训练模型的方法》,德邦研究所 资料来源:澜舟科技,德邦研究所 2018年3月,AllenNLP提出了ELMo模型,属于Feature-Based模型,使用预训练模型产出的词向量作为输入,接入下游的独立的模型进行预测。 2018年6月,OpenAI提出了第1代GPT模型,开启了大规模预训练语言模型时代。GPT属于Finetune-Based模型,在目标任务上精调整个模型,而不是只将模型的输出结果作为固定的词向量特征。由于预训练模型自身非常复杂,因此接入的下游任务模型可以非常简单,很大程度上降低了NLP的技术门槛。 表1:ELMo、BERT与GPT系列的对比 名称时间机构 模型应用 底层结构参数量学习方向NLP学习方法主要应用领域优势劣势 Feature-Based:使用预 ELMo2018/3AllenNLPRNN94M从左到右叠训练模型产出的词向量 加从右到左作为输入,接入下游的 独立的模型进行预测 Finetune-Based:将原来 ELMo用于特征抽取,不同下游任务需要使用不同的对应模型 解决了一词多义的问题;兼顾语义与词性 可以出色完成NLP RNN模型较Transformer效果较弱;上下文的特征融合能力较差 BERT2019/6谷歌Transformer 的Ecoder 340M双向 的模型在下游任务上进行训练(预训练+微调) NLP研究 除生成任务以外的 其他任务,包括阅