您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[南京证券]:计算机:积极拥抱AIGC技术变革,关注应用落地 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机:积极拥抱AIGC技术变革,关注应用落地

信息技术2023-04-20许吟倩南京证券向***
计算机:积极拥抱AIGC技术变革,关注应用落地

行业评级:推荐 积极拥抱AIGC技术变革,关注应用落地 研究员许吟倩 投资咨询证书号S0620521100004 联系方式025-5851972 邮箱yqxu@njzq.com.cn 目Contents 录 AIGC 01 02AI+游戏 03AI+营销 04AI+电商 05投资建议 AIGC 01 PART01 第一部分 从技术上看,生成算法、预训练模型、多模态等AI技术累计融合,成为了AIGC爆发的关键因素。从流程上看,算法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。 基础的生成算法模型不断突破创新:Transformer模型的推出为预训练模型奠定了基础。 AIGC发展的关键:生成算法的优化 型 主流模型 提出时间 模型描述 变分自动编码(VariationalAutoencoders,VAE) 2014 基于变分下界约束得到的Encoder-Decoder模型对 生成对抗网络(GAN) 2014 基于对抗的Generator-Discriminator模型对 基于流的生成模型(Flowbasedmodels) 2015 学习一个非线性双射转换(bijectivetransformation),其将训练数据映射到另一个空间,在该空间上分布是可以因子化的,整个模型架构依靠直接最大化log-likelihood来完成。 扩散模型(DiffusionModel) 2015 扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。 Transformer模型 2017 一种基于自注意力机制的神经网络模型,最初用来完成不同语言之间的文本翻译任务,主体包含Encoder和Decoder部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本。 神经辐射场(NeuralRadianceField,NeRF) 2020 它提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图。 CLIP(ContrastiveLanguage-ImagePre-Training)模型 2021 1、进行自然语言理解和计算机视觉分析;2、使用已经标记好的“文字-图像"训练数据。一方面对文字进行模型训练。一方面对另一个模型的训练,不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值并确认匹配。 小模 被认为是行业发展方向 预训练模型包括:(1)自然语言处理(NLP),如谷歌的LaMDA和PaLM、OpenAI的GPT系列;(2)计算机视觉 (CV),如微软的Florence;(3)多模态预训练,即融合文字、图片、音频视频等多种内容形式。 AIGC发展的关键:预训练模型引发的质变 国外主要的AIGC预训练模型 企业 预训练模型 应用 参数量 领域 谷歌 BERT 语言理解与生成 4810亿 NLP LaMDA 对话系统 NLP PaLM 语言理解与生成、推理、代码生成 5400亿 NLP Imagen 语言理解与图像生成 110亿 多模态 Parti 语言理解与图像生成 200亿 多模态 微软 Florence 视觉识别 6.4亿 CV Turing-NLG 语言理解、生成 170亿 NLP Facebook OPT-175B 语言模型 1750亿 NLP M2M-100 100种语言互译 150亿 NLP DeepMind Gato 多面手的智能体 12亿 多模态 Gopher 语言理解与生成 2800亿 NLP AlphaCode 代码生成 414亿 NLP OpenAI GPT3 语言理解与生成、推理等 1750亿 NLP CLIP&DALL-E 图像生成、跨模态检索 120亿 多模态 Codex 代码生成 120亿 NLP ChatGPT 语言理解与生成、推理等 NLP StabilityAI Megatron-TuringNlG 语言理解月生成、推理 5300亿 多模态 英伟达 StableDiffusion 语言理解与图像生成 NLP AIGC发展的关键:多模态推动内容多样性  多模态模型技术推进主要来源于:2021年OpenAI团队推出跨模态深度学习模型CLI P,后续“CLIP+其他模型”成为跨模 态生成领域的通用做法。 2021年3月,OpenAI发布AI绘画产品DALLE,只需要输入一句文字,DALLE就能理解并自动生成一副意思相符的图像 且该图像是独一无二的。 , DALL·E把椅子上的萌犬P成猫猫 DALL·E2在“星云爆炸状柯基头” 深度学习模型的创新推动AIGC技术变革  超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向 上的不断突破,并未AIGC技术能力 的升级提供了强有力的支撑和全新的可能性。 当前AIGC技术已经从最初追求生成内容的真实性的基本要求,发展到满足生成内容多样性、可控性的进阶需求,并开始追求生产内容的组合型。例如:虚拟数字世界中人、物和环境间的交互组合生成为整体场景。大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领AIGC技术升级正在成为学界、产业界共识。 视觉大模型提升AIGC感知能力:在环境感知、内容检索、语义理解、模态对齐等任务上具备先天的优势,能够提升 AIGC基础环境孪生能力、丰富AIGC应用场景。语言大模型增强AIGC认知能力:体现在训练模型的数据量日益增大、数据种类也更加丰富,模型规模增大、参数量以指数倍增加。通过不断构建语义理解能力增强、逻辑知识可抽象学习、同时适用于多种任务的语言大模型,利于AIGC场景中的各项认知应用。多模态大模型升级AIGC内容创作能力:不是单一的视觉大模型的环境感知能力或者是语言大模型的认知能力,多模态大模型拥有两种能力:一种是寸照不同莫泰数据之间的对应关系,例如:将一段文本和与之对应的图片联系起来;另一个是实现不同莫泰数据间的相互转化与生成,例如:根据一张图片生成对应的语言描述。 AIGC大模型架构  多模态大模型升级AIGC内容创作能力:不是单一的视觉大模型的环境感知能力或者是 语言大模型的认知能力,多模态大 模型拥有两种能力:一种是寸照不同莫泰数据之间的对应关系,例如:将一段文本和与之对应的图片联系起来;另一个是实现不同莫泰数据间的相互转化与生成,例如:根据一张图片生成对应的语言描述。给定具体文本语义 AIGC大模型架构  多模态大模型升级AIGC内容创作能力:以OpenAI提出的多模态大模型DALL-E2为例 ,给定一个已有的场景图像,该模 型能在指定位置添加指定的目标主体。 过程:识别圆球位置为沙发/左侧画框——添加符合相应画风的不同形态柯基 。 。 , 、 AIGC产业链  基础层:预训练模型,由于预训练所需要 的数据量快速提升,从千万级提升至千亿级,带来了较高的成本,有较高的准入门槛。2020年OpenAI的GPT-3预计成本约为1200万美元。因此,目前进入预训练模型的主要机构为头部科技企业、科研机构。 中间层:垂直化、场景化、个性化的模型在预训练基础上,快速抽取生成场景化、定制化、个性化的小模型,实现不同行业垂直领域、功能长久的工业流水线式部署如:在StableDiffusion开源后,二次元画风生成的Novel-AI。随着兼具大模型和多模态的AIGC模型加速成为新的技术平台模型即服务(MaaS)开始成为显示,通过API授权有望实现AIGC商业发展和变现。应用层:即面向C端用户的文字、图片、音视频等内容生成服务。应用层包括App网页、小程序、聊天机器人等。 文本领域模型:GPT-4  3月15日凌晨,OpenAI发布了多模态预训练大模型GPT-4。此外还发布了技术报告 和SystemCard,开放了GPT-4的API。 GPT-4实现了几个方面的飞跃式提升: 1)强大的识图能力。GPT-4能接受图像和文本输入,允许用户指定任何视觉或语言任务(包括带有文本和照片的文档、图表或屏幕截图上),输出文本内容。例如,给GPT-4一个长相奇怪的充电器的图片,问它为什么这很可笑,它可以识别出图片中给手机充电线是VGA;可以理解图表中数据的含义,并做进一步计算,如计算格鲁吉亚和西亚的人均每日肉类消费,计算平均数;可以直接上传物理题让它回答;可以理解一张照片里有什么不对劲的地方;可以直接把论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要。2)文字输入限制提升至2.5万字。GPT-4的长度限制提升到32Ktokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。3)回答准确性显著提高。美国高考SAT试题,GPT-4在阅读写作中拿下710分、数学700分(满分800);GRE几乎满分,逻辑能力超越GPT-3.5。4)在高级推理能力上超越ChatGPT。在律师模拟考试中,GPT-4通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。5)能够生成歌词、创意文本,实现风格变化。 图像领域产品:Midjourney  Midjourney是一款AI制图工具,只要关键字,就能透过AI算法生成相对应的图片,只需 要不到一分钟。该软件最具有代表 性的一张作品是《太空歌剧院》。2022年8月,美国科罗拉多州博览会艺术比赛斩获金奖的作品就是由Midjourney生成的《太空歌剧院》。 一眼识别作品是AI绘图主要看光影和手指。与人类作画不同,AI绘图工具没法了解到用户所描述的场景里光源的正确走向,以Stable-Diffusion、Lora这样的热门绘图工具为例,它们处理光影的方式往往具有一定的随机性,左右光源不分,导致产出的作品不够真实。同理,手指的几何形状十分复杂,没有一定的规律,AI工具很难有针对性的处理。这些问题在MidjourneyV5版本得到了解决。在GPT-4推出的同时,Midjourney同期推出了第五代版本,迭代速度相当快。MidjourneyV5可以在接到关于年份的描述时,会主动匹配用户的需求,不会让一张高清图片出现在“90年代”的场景描述之下。Midjourney现在可以按照用户的需求,模拟不同摄影设备的摄影效果,例如“shotonCanonR6with50mmf1.4”此处包含了相机型号为佳能R6,50mm焦段与f1.4光圈等信息。Midjourney可以根据用户提供的信息,模拟出所需的效果。 , Midjourney和ChatGPT结合  首先可以模糊地描述你的构想,让ChatGPT拓展成一个充满细节的画面描述,接 着让它从这段文字描述中提取关键词。 然后,你可以将Midjourney的提示句的语法构成告诉ChatGPT,再通过几次训练让Midjounery记住如何通过你输入的关键词来创建Midjourney的命令语法。之后只需要复制粘贴ChatGPT给你的指令粘贴到Midjourney的命令框里即可生成图片,如果你不满意还可以让ChatGPT来继续帮你修改完善关键词。 Midjourney作品 视频领域产品:Runway、WonderStudio  3月20日,人工智能创业公司Runway宣布新的文本生成视频AI模型Gen-2,相比GE N-1模型利用现有视频素材二次创作, 新增基于文本、图片、人物动作等多模态从零开始自动创作短视频的功能,在保持