SACNO:S1120520040003 2023年2月10日 请仔细阅读在本报告尾部的重要法律声明 内容产业专题之二: 仅供机构投资者使用证券研究报告|行业深度研究报告 新生产工具落地,近期即可展望变现 ——AIGC应用、商业化及受益标的 华西传媒互联网团队 证券分析师:赵琳 01AIGC:新生产工具的诞生 目录02变现:B端/C端商业化条件成熟,长期想象空间大 03投资建议:关注兼具数据、算力及流量优势的厂商&先发布局标的 04风险提示 01AIGC:新生产工具诞生 1.1AIGC:人工智能生成内容,Web3时代的生产工具 AIGC(AIGeneratedContent),即通过人工智能自动生成内容,具体指基于大型语言模型LLM、生成对抗网络GAN等深度学习技术,输入数据后由人工智能生成相关内容。目前AIGC已进入成长期,AI生成图像、文字、代码、音乐等领域均已有相关应用落地,我们认为随着B、C两端的快速普及,AI创作生产内容将成为下一阶段的重要内容生产方式。 数据准备 模型训练 生成内容 评估效果 模型优化 准备大量的可供训练的数据,如文本、图像、音频等,并对其进行预处理。 使用机器学习算法(如神经网络、随机森林等)对,模型进行训练,让模型学会生成与人类相似的内容。 通过模型的预测接口,向模型输入指定的模板和数据,获得生成的内容。 评估生成的内容与实际创作要求的差异。 根据评估效果对模型进行优化,提高生成内容的质量。 图:AI生成内容的流程 图:内容创作模式的演变猜想 专业人士生产内容 PGC 用户生产内容 UGC AI辅助用户生产内容 AIUGC AI生产内容 AIGC 资料来源:ChatGPT、华西证券研究所 1.2当下为何关注AIGC:落地前的技术积累已经基本完成 神经网络 大数据 人工智能生成内容的基础,对生成内容的质量和效果有着重要的影响。 自然语言处理 计算机视觉 人工智能生成内容的基础理论,它模拟了人脑的神经网络,从而实现了人工智能的生成内容。 通过对人类语言的理解和处理,从而实现人工智能生成内容。 通过模拟人类视觉系统的功能,对图像及视频进行处理。 图:AIGC的四大技术基础 基础架构 深度神经网络DNN 卷积神经网络CNN 递归神经网络RNN 模型框架 生成对抗网络GAN 变分自编码器VAE 流生成模型flow/glow 扩散模型Diffusion 落地应用 AI换脸 AI生成图像 AI生成音频 残差网络ResNet Transformer 模型深度与结果开始具有相关 性 模型的深度和参数量指数级增加 建立长距离的dependency→并行计算能力 大型语言模型LLM ChatGPT 人工智能对话型机器人 GPT-3 GPT-2 GPT-1 图:从机器学习角度看AIGC发展历程,相关技术已经基本成熟 1.3当下为何关注AIGC:ChatGPT诞生,催化AIGC商业化价值 ChatGPT实现了从技术提升到技术突破的转变。此前残差网络及Transformer的出现使得模型的深度和参数量指数级增加,大模型成为可能,AIGC应用飞速发展;大语言模型出现后,大模型的使用方式从预训练的单一任务模型迭代到多模态模型,微调时所需的标注数据量显著减少,从而降低了业务的使用成本。在此基础上,2022年11月,OpenAI上线了机器人对话模型ChatGPT(GPT-3.5),新模型参数量为1750亿(人脑神经元数量为120-140亿),远超此前模型的参数量。ChatGPT引入了RLHF(基于人类反馈的强化学习),能够在大部分领域与人类进行持续的语言交互,实现了历史性的突破。 ChatGPT标志着AIGC规模化、商业化应用的开始,人类的内容生产习惯将被改变。尽管此前StableDiffusion、Midjourney等AI绘画应用已经落地,但注册及使用门槛仍相对较高。ChatGPT的对话机器人属性及免费试用窗口期使其能够广泛触达用户,瑞银数据显示上线两月用户数已突破一亿,系目前用户增长最快的消费应用,2023年1月推出付费订阅版,每月价格20美元。我们认为,ChatGPT之于OpenAI,可以对标AlphaGo和AlphaFold之于DeepMind,开启了AIGC认知普及的一大步,是AIGC内容批量规模化生产 的起点。 图:ChatGPT的技术突破点在于引入了RLHF(基于人类反馈的强化学习) 图:ChatGPT实现路径 步骤1:收集数据,监督学习步骤2:建立训练汇报模型步骤3:强化学习(PPO算法) “提示学习”算法 引入监督学习,提高 模型认知能力 进行数据标注 雇佣标注工 一个提问对应多个回答 Q:如何向一个六岁的孩子解释强化学习? 标注者将回答从最好到最差排序 强化学习的目标是… 该过程中产生的数据用于训练奖励模型 使用监督学习,对GPT-3.5进行微调 在机器学习过程中,,, 奖励机制是… 围棋… 一个新提问 写一个关于水獭的故事 很久很久以前… 初始化 策略模型进行输出 奖励模型对输出进行评价 该评价用于 更新策略模型的参数(基于PPO算法) 1.4AIGC的进入壁垒:开源降低行业技术门槛,但大模型对数据及算力需求极高 AIGC本身的技术门槛并不高。大模型的涌现和指数级的能力迭代,开源社区的繁荣、API接口的大量开发和开放(ChatGPT即为开放平台),使AIGC应用对新进入者较为友好。此外大模型的泛化能力和通用性极强,无需对场景和模型重复训练(即Zero-shot),由此而来的低成本准入门槛、数据飞轮效应和广泛的场景适应能力,都一定程度降低了行业的技术壁垒。 但大模型对数据量及算力的海量需求,使得头部大厂的规模优势更加突出。模型是当下主流AIGC应用的核心基础,训练和运行模型都需要庞大的数据量和算力成本(资金)。1)数据需求:模型性能与数据量、数据质量紧密相关,文献显示即使是拥有130亿参数的模型(仅次于拥有1750亿的GPT-3完整版模型)处理二位数加减法的准确率也只有50%左右,处理其他运算的准确率还不到10%。2)算力花费:GPT3.5的训练使用了微软专门建设的AI计算系统,由1万个V100GPU组成的高性能网络集群,总算力消耗约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。 图:GPT3的8个模型一共使用了3000亿token 图:深度学习模型的算力需求指数级增长 1.5现有产业链拆解:数据供给→模型定制→内容分发 BERT(语言理解与Florence(视觉识别)OPT-175B(视觉识别)生成)Turing-NLG(对话系 Bard(聊天机器人)统) M2M-100(语言理解、 生成) Gato(多模态) Megatron- ChatGPT(语 Gopher(语言理解、TuringNLG 言理解、生成、 Stable 生成) (语言理解、 AlphaCode(代码生成、推理)生成) 推理) CLIP&DALL-E (图像生成) Diffusion(语言理解与图像生成) 上游:数据供给 中游:模型开发与定制 下游:应用与分发 数据收集 数据标记 数据预处理 收集大量原始数据并对其进行预处理,以便提供给模型训练。 算法开发 训练深度学习模型 二次开发定制化模型 1)使用注释数据开发和训练AI模型以生成内容;2)在垂直细分领域进行模型的二次开发,以便适应定制化需求。 内容生产厂商 内容创作应用服务商 内容分发平台 1)协助用户使用模型和算法生成内容,如图像、文本、语音等。2)将生成的内容分发到各种渠道, 如社交媒体、娱乐平台、新闻媒体等。 文本 图像 音频 视频 代码 邮件撰写 绘画生成 AI编曲 智能渲染 代码生成 会议纪要 AI换脸 AI配音 视频剪辑 代码纠错 文案策划 画作修复 有声播客 素材匹配 代码优化 对话聊天 广告制作 会议还原 特效生成 App制作 1.6评估AIGC的政策风险:数据、算法规范已逐步完善,当前责任集中于平台自查 AIGC目前存在版权、伦理、数据安全等风险点。AI模型通常是通过预先存储的大量数据训练得到的,因此其中可能存在错误、偏见或不准确的信息。1)版权:AI模型可能侵犯到他人的版权,如通过复制或抄袭别人的作品创建文本。2)伦理:AI模型可能存在伦理风险,例如造成误导、歧视或侵犯个人隐私。3)数据安全:当存储或处理敏感信息时,存在数据泄露、被窃取等安全风险。 数据及算法领域此前已经经历过一轮密集规范,相关细则已经相对完善,叠加2021年以来数字经济相关政策利好陆续释放,我们判断产业初创期相关的政策态度趋于包容,目前审核责任更多集中于平台对语料库的自查。 图:此前针对数据及算法的监管体系已经逐步完备 数据分类分级 实行公共数据、企业数据、个人数据分类分级界定,明确各级数据监管范围 数据采集 平台方强化信息采集限制、用户方明确数据处置权利 数据流通 将数据要素流通市场纳入监管范畴,优化数据交易市场机制,提升市场化水平 数据管理 维护国家数据安全、审慎规范数据使用,压实平台管理责任 《民法典》、《国家安全法》、《数据安全法》、《网络安全法》、《个人信息保护法》 《网络安全审查办法》、《云计算服务安全评估办法》、《关键信息基础设施安全保护条例》、《互联网信息服务算法推荐管理规定》、 《关键信息基础设施安全保护条例(征求意见稿)》、《企业数据资源相关会计处理暂行规定(征求意见稿)》、 《数据出境安全评估申报指南(第一版)》、《关于修改〈中华人民共和国网络安全法〉的决定(征求意见稿)》、《工业和信息化领域数据安全管理办法(试行)》 条例细则 顶层法规 02B端/C端商业化条件成熟,长期想象空间大 11 2.1行业已经具备大规模商业化条件:供给多点开花,顺应行业需求 供给侧 现有技术成熟度已经能够大规模辅助用户进行内容生产,下游 供给多点开花。 需求侧 1)我们通过实际使用判断人工智能创作能力基本达到了人类专业工种 60%-70%的水平,且基于AI的工具容错率高,可编辑性强,具备落地应用的可行性。 2)从实际供给来看,当前AIGC已经率先在营销、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,为文娱乃至金融、医疗等领域提供有力内容供给。 1)随着互联网增速放缓、红利消耗,去肥增瘦成为普遍趋势,传统内容生产部门难以承担内容创作的超高成本,AIGC应用在前期能够替代拆条剪辑视频、简单文案等劳动密集的重复性工作,中后期可展望提供创意、推动创新,在成本控制领域有着不可替代的优势。 2)快节奏生产需求下,AIGC的高效率特点使其能够进一步节省用户内容 产出的时间成本。 文娱碎片化、轻量化趋势下,行业逻辑接近快消品,用户消费需求指数级增长,消费形态升级(图文→视频),传统生产方式下行业成本压力加剧。 文案助手 绘画生成 视频生成 演讲生成 AI法律支持 AI虚拟主播 自动高效生成生成速度更快 提升内容质量 AI绘画水平较高 增加内容多样性多题材、多形态 降低创作成本 成本低廉 个性化定制输入内容用户自定,事后 可二次编辑 2.1行业已经具备大规模商业化条件:厂商实现盈利,验证商业模式可行性 ToB ToC 出售API接口 根据产出数量计费 订阅制 面向C端提供服务,用户需每月付费以换取服务,当前订阅价格仍相对高昂。 代表产品: 面向C端提供服务,根据内容产出的数量计费,如AI绘画软件按照图像张数收费。 代表产品: 作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算费用。 代表产品: 图:AIGC当下的主流商业模式 目前海外已有实现稳定盈利的厂商,持续验证商业模式的可行性。公开业绩数据显示2020年Deepmind已实现千万美元量级的利润, 营业额