您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[上海证券]:传媒图像篇专题(一):开源模型高速迭代,StableDiffusion促进AI技术民主化 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒图像篇专题(一):开源模型高速迭代,StableDiffusion促进AI技术民主化

文化传媒2023-05-09陈旻上海证券改***
AI智能总结
查看更多
传媒图像篇专题(一):开源模型高速迭代,StableDiffusion促进AI技术民主化

证券研究报告 2023年5月9日 行业:传媒增持(维持) 图像篇专题(一):开源模型高速迭代,StableDiffusion促进AI技术民主化 分析师:陈旻SAC编号:S0870522020001 我们将“AI+传媒”的研究框架体系定义为“通用大模型”+“行业小样本”的技术架构,“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度, 1、适配程度是指:多模态的输入及输出是否匹配应用层的输入及输出。比如GPT-4属于“图+文”多模态输入+“文”单模态输 出,因此输入模态为“图或文”且输出模态为“文”的垂直应用更适配GPT-4。 2、迭代速度是指:应用层产生的“行业小样本”的数据量是否匹配大模型的迭代要求。根据我们对GPT模型的理解,比如BingAI产生的“行业小样本”源自Bing的搜索结果,ChatGPT产生的“行业小样本”源自用户的反馈和互动。因此我们认为,对于超出GPT所使用的预训练数据库范围(2021年9月前)的事实性表述,BingAI反馈的是搜索的结果,ChatGPT反馈的是用户主动的观点,BingAI反馈的效果比ChatGPT更好。 我们认为“行业小样本”的价值取决于数据数量及数据质量,数量大且质量高(多模态)的应用场景复用及迭代AI能力的效力更强,因此更进一步理解我们的研究框架,我们将“行业小样本”的结构分层(中层小模型+下层应用及内容),并将“行业小样本”的结合方式分类(调用+训练): 1、“行业小样本”的数据集来自小模型或应用及内容:AI产业链包括上层大模型、中层小模型、下层应用及内容,包括应用及内容直接接入大模型或通过小模型接入大模型两种方式,即“大模型+应用及内容”或“大模型+小模型+应用或内容”,其中具备特定功能的AIGC软件产品及MaaS我们理解为“小模型”+“应用”的技术范式,本身具备较高质量的AI能力,若接入匹配的多模态大模型,有望实现能力上的质变突破。 2、“行业小样本”的结合方式包括“能力调用”及“能力训练”两类: (1)“能力调用”是指下游垂类场景直接调用通用大模型的通用能力,并基于垂类场景内产生的特性化数据不断提升调用能力在垂类场景内的适配程度。我们认为现阶段下游应用及内容主要采取此类方式接入大模型能力,此类方式可高效快速调用大模型先进能力,在时间上及成本上具备优势。我们认为“能力调用”匹配“AI+传媒”的第一层利好,即通过AI降本增效,大幅提高数据及内容的供给量。内容产业本质由供给决定需求,因此内容供给量的明显提升将有效带动传媒基本面拐点及增量空间出现。 (2)“能力训练”是指下游垂类场景将通用大模型针对特性化数据集进行再训练,从而形成垂类场景专属大模型。例如彭博社利用自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT。我们认为“能力训练”匹配“AI+传媒”的第二层利好,即下游垂类场景本身的数据或内容反过来“再训练”通用大模型(或开源大模型),形成传媒内容场景专属大模型,形成更稳定且高质的内容输出。我们认为训练难度文本<图片<视频<影视<游戏,且内容数量逐步递减但内容质量逐步递增,即偏后端的影视、游戏在内容数量上训练量级不足,因此高质量的内容形态首先通过“能力调用”输出AIGC内容,再将AIGC内容“再训练”大模型以解决高质量内容数量不足的问题(合成数据“再训练”范畴)。 从投资的角度,按照我们的研究框架,传媒对应垂类场景的“行业小样本”,其核心价值取决于数据与内容,第一层对应数据与内容的输入模态是否匹配大模型的输出模态;第二层对应数据与内容的数量及质量是否匹配大模型的能力再训练: 1、按照“模态匹配”的逻辑,AI+文本/虚拟人预计率先兑现案例及业绩,其次AI+图片可通过“大模型”+“小模型”组合方式实现(如GPT+StableDiffusion、GPT+Midjourney)。随着未来GPT-5提供更多模态的输入及输出,下游垂类场景的适配范围有望扩大,通过“能力调用”适配的应用及内容场景更为丰富,因此后续“AI+视频/影视/游戏”的案例兑现度存在新的催化空间 。 OpenAI最新发布的GPT-4核心特征包括:(1)多模态输入(图+文),单模态输出(文),可以阅读并总结论文内容、解答较高难度的物理题目、具备较强的OCR能力(如识别网页草稿并按要求反馈网页代码)、理解人类社会常识;(2)具备长文字处理及推理判断能力,GPT-4上下文上限约2.5万字,允许使用长格式内容创建、扩展对话以及文档搜索和分析等,能够阅读并记忆更多信息,且具备更高的推理判断能力;(3)可靠性大幅提升,分辨能力提高,有效减少“虚构”或“有害”信息输出。 2、按照“能力再训练”的逻辑,AI+内容/IP预计空间及价值更大,其价值核心取决于数据与内容/IP的数量及质量的高低。本周 ,我们认为最核心意义为大幅降低垂类场景专属大模型的训练门槛,小模型层及应用层有望明显受益。掌握数据及优质内容( 多模态数据)的下游场景具备核心竞争力,因此内容及IP(版权)的价值有望重估。 DeepSpeed-Chat集成预训练语言大模型完整三个步骤,其中针对第三步RLHF训练集成了高效且经济的DeepSpeed-RLHF系统,使复杂的RLHF训练变得快速、经济并且易于大规模推广(相比现有系统提速15倍以上,且大幅降低算力要求及成本)。 本文将选取国外AI图像生成领域的龙头之一进行解析,StableDiffusion是一个文本到图像的潜在扩散模型(LatentDiffusionModels),于2022年8月推出。截至2022年底已被全球超20万开发者下载和授权,成为当前可用性高的开源模型。ToC端,StabilityAI面向消费者的产品DreamStudio自8月推出后迅速成长,截至2023年4月11日,已为来自50多个国家/地区的超过100万注册用户创造了超过1.7亿张图像。 代码技术迭代迅速,ControlNet插件促进AI绘画革命性进步。StableDiffusion的开源优势在于能够吸引大量的开发者,最大程度的把模型用起来,开源社区会共同推进promptengineering,解决技术难题,这使得代码的迭代速度非常快,优化效率远远高于闭源系统,使得文生图行业快速成长和普及。同时社区成员会创建新的UI,通过扩展现有的功能创造新的用例 ,在StableDiffusion模型上创建的应用逐渐繁荣。 历经多次版本迭代,消费级GPU即刻快速部署使图像生成民主化。StableDiffusionV1在消费类GPU上运行的VRAM低于10GB ,几秒钟内即可生成512*512像素的图像,显著降低部署门槛,使得图像生成民主化。2022年11月V2版本发布,从四个方面 进行版本升级:1)全新文本编码器(OpenCLIP)训练的文生图模型显著提升了生成图像的质量;2)UpscalerDiffusion模型将生成图像的分辨率提高了4倍;3)使用Depth2img模型用来推理输入图像的深度,保持图像生成的连贯性和深度;4)引入新的text-guided(文本引导修复模型)使得用户可以快速智能地切换图像内容。 商业模式仍在积极探索,版权问题未来有待解决。目前公司实现的营收暂不足以覆盖巨额的服务器和人才招募的费用,而训练模型所需的计算资源和成本非常高昂,且2023年3月,StabilityAI斥资收购了成像工具InitML。版权问题是图像生成应用发展遇到的普遍问题,由于牵涉到艺术版权的问题较多,且对外开源的特性使得对图像生成的监管程度更低,未来发展中版权问题有待解决。 风险提示: 宏观经济风险;地缘政治风险,技术发展不及预期风险;AIGC行业发展不及预期风险 目录 SECTION Content 一、StableDiffusion二、投资建议 三、风险提示 一、StableDiffusion 1.1当前可用性高的开源模型,StableDiffusion风靡开源社区 StableDiffusion是一个文本到图像的潜在扩散模型(LatentDifusionModels),由Runway、LMUMunich 、EleutherAI、LAION、StabilityAI的研究人员和工程师创建。StableDiffusion的项目基础是由慕尼黑大 学机器视觉与学习研究小组和Runway的研究人员,基于CVPR2022的一篇论文《High-ResolutionImage SynthesiswithLatentDiffusionModels》,并与其他社区团队合作开发的一款开源模型。 StableDiffusion于2022年8月推出,所有人均可在本地训练和部署AI模型。2022年底,StabilityAI宣布融资1.01亿美元,并宣称StableDiffusion已被全球超过200,000名开发者下载和授权,成为当前可用性高的开源模型。而据《福布斯》报道,每天有1000万人使用StableDiffusion——比使用OpenAI的DALL-E2的人数还要多。同时,StabilityAI面向消费者的产品DreamStudio自8月推出后迅速成长,截至2022年11月9日,已为来自50多个国家/地区的超过100万注册用户创造了超过1.7亿张图像。 图1:StableDiffusion官网示例图 图2:“AhightechsolarpunkutopiaintheAmazonrainforest”命令对应图 资料来源:StableDiffusion官网,上海证券研究所 资料来源:StableDiffusion官网,上海证券研究所 1.2代码技术迭代迅速,ControlNet插件促进AI绘画革命性进步 开源模式吸引大量开发者,代码及技术迭代迅速,推动行业整体发展。StableDiffusion的开源优势在于能够吸引大量的开发者,最大程度的把模型用起来。开源社区会齐心协力地完善模型文档,共同推进promptengineering,解决技术难题。这使得代码的迭代速度非常快,优化效率远远高于闭源系统,使得文生图行业快速成长和普及。同时社区成员会创建新的UI,通过扩展现有的功能创造新的用例,在StableDiffusion模 型上创建的应用逐渐繁荣。 ControlNet插件显著提升扩散模型生成实用性和稳定性,AI绘画革命性进步。2023年2月,斯坦福大学研究人员发布论文《AddingConditionalControltoText-to-ImageDiffusionModels》并提出一种神经网络结构ControlNet来控制预训练的大型扩散模型以支持其他输入条件。ControlNet通过端到端的方式满足特定任务的条件,如线图成图、分割图成图、Pose生图等,极大提高AI生成图片的可控性和实用性。 图3:论文《AddingConditionalControltoText-to-ImageDiffusionModels》图4:StableDiffusion的ControlNet插件输入线图即可输出图片 资料来源:《AddingConditionalControltoText-to-ImageDiffusionModels》,Lvmin Zhang,ManeeshAgrawala,上海证券研究所 资料来源:《AddingConditionalControltoText-to-ImageDiffusionModels》,LvminZhang,ManeeshAgrawala,上海证券研究所 2022年8月,StableDiffusionV1版本发布,在Github排行榜不到两个月的时间内飙升至33Kstar,使图像生成更加民主化。StableDiffusion在消费类GPU上运行的VRAM低于10GB,几秒钟内生成512x512像素的图像。这将使研究人员和公众都可以进行文生图操作,使图像生成民主化。V1亮