您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[量子位]:AI生成内容产业展望报告 - 发现报告
当前位置:首页/行业研究/报告详情/

AI生成内容产业展望报告

文化传媒2023-02-07量子位足***
AI生成内容产业展望报告

AIgc,AI-generatedcontent AIGC/AI生成内容 Industryinsightreport 产业展望报告 •在技术上,AIGC已经可以完成哪些创作? •在价值上,AIGC除了直接生成艺术作品还能做什么? •在未来,AIGC将如何改变内容及相关产业? •...... 目录 技术及场景篇 01技术定义 02技术及落地场景介绍——基于模态 02文本生成 05音频及文字—音频生成 06图像生成 09视频生成 11图像、视频、文本间跨模态生成 15策略生成 15技术及落地场景介绍—综合赛道 15GameAI 17虚拟人生成 19相关预测 产业篇 20价值分析 21细分赛道分析 21内容领域 24延展领域 26行业发展阶段分析 29产业链分析 29玩家分析 关键结论 1.区别于GenerativeAI和Syntheticmedia,AIGC中的跨模态生成和策略/线索生成应当得到重视,这两者也是AIGC长期的重要价值增长点。 2.按照模态区分,AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨模态生成需要重点关注。GameAI和虚拟人生成是目前变现较为明确的两大综合赛道,预计对原行业产生整体性影响。 3.以下技术要素值得关注:长/开放式文本生成、NeRF模型、Diffusion模型、跨模态大型预训练模型、小样本学习及自监督算法、强化学习及环境学习。以下技术场景值得关注:闲聊式文本生成、个性化营销文本、富情感及细节TTS、拼凑式视频生成、基于文本的AI绘画、语音复刻。 5.除降本增效、提供参考外,AIGC的以下两点价值更值得关注:对不同模态元素进行二次拆解组合,改变内容生产逻辑及形式;和其他AI系统或数据库进行联动,有实现高度个性化/高频优化。 6.我国AIGC行业仍处于刚刚起步阶段,距离大规模验证和体系化发展仍有距离,“模块分拆+个性化推荐”的“泛AIGC”形式预计将有所发展。 我国AIGC行业阶段划分 AIGC相关技术场景及成熟度分类 我国AIGC产业链划分 AIGC相关业务场景分析 感谢以下机构及个人参加深度访谈:倒映有声、Deepmusic、高林教授、黄民烈教授、rctAI、腾讯AILab、小冰公司 技术及场景篇 1.1技术定义 AIGC全称为AI-GeneratedContent,指基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术。与之相类似的概念还包括Syntheticmedia,合成式媒体,主要指基于AI生成的文字、图像、音频等。 Gartner《2021年预测:人工智能对人类和社会的影响》给出积极预测: •至2023年将有20%的内容被生成式AI所创建 •至2025年,Gartner预计生成式AI产生的数据将占所有数据的10%,而今天这个比例不到1% •根据Gartner披露的“人工智能技术成熟度曲线”,生成式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用 Gartner也提出了相似概念GenerativeAI,也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。相较于量子位智库认为的AIGC,这一概念的范围较狭窄。 一方面,这一概念忽略了跨模态生成(如基于文本生成图像或基于文本生成视频)这一愈加重要的AIGC部分。我们会在下一部分对跨模态生成进行重点讲解。另一方面,在结合现有技术能力和落地场景进行分析后,我们认为“生成”和“内容”都应该采取更为广泛的概念。例如,生成中可以包含基于线索的部分生成、完全自主生成和基于底稿的优化生成。内容方面,不仅包括常见的图像、文本、音频等外显性内容,同样也包括策略、剧情、训练数据等内在逻辑内容。 从特定角度来看,AI内容生成意味着AI开始在现实内容中承担新的角色,从“观察、预测”拓展到“直接生成、决策”。 从商业模式来看,我们认为,AIGC本质上是一种AI赋能技术,能够通过其高通量、低门槛、高自由度的生成能力广泛服务于各类内容的相关场景及生产者。因此,我们不会将其定义为PGC\UGC之后的新内容创作模式,而是认为其在商业模式上会有大量其他交叉。我们会在价值篇对其商业模式进行进一步展开。 1.2技术及落地场景介绍——基于模态 我们认为,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。 技术视角下,我们认为以下场景将成为未来发展的重点:文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。 商业视角下我们认为,未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。 在这一部分,我们会基于不同的模态介绍对应的技术和商业场景,并给出各场景下的代表机构及发展现状。下图中的绿色部分,是我们认为2-3年内具有快速增长潜力的细分赛道。具体原因我们将在对应位置进行具体展开。 较为广泛地实际应用、技术细节仍待进一步提升 底层技术原理基本明确,预计1-2年内将规模化应用 底层技术原理仍待完善,增长可期 文本生成 以结构性新闻撰写、内容续写、诗词创作等细分功能为代表,基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。 量子位智库在此看好个性化文本生成以及实时文字生成交互。 •细分技术介绍 大型预训练模型成为当下主流做法与关键技术节点。 一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。 目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文本生成能力已被直接应用于Writesonic、Conversion.ai、SnazzyAI、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于AIdungeon等文本具有重要意义的延展应用领域。 另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构、合理引入知识图谱及知识库、增加特定任务对应Embedding等方式,增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。 以下为各技术场景下对应的基本原理。 细分场景 技术原理 内容续写如完形填空和文章续写 通过随机Mask(即遮挡)数据库文本中的词语或语段,让神经网络自主学习复原被遮挡部分,从而拥有“猜测”缺失内容的能力,产出预训练模型。再通过大规模预训练模型理解上文或给定条件,从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程。 摘要/标题生成 以TLDR为重要代表 首先通过词嵌入(WordEmbedding)将字、词、句进行区分,然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重;其次选择相应的文本单元子集组成摘要候选集,完成内容选择;最后是针对字数要求等限定条件,对候选集的内容进行整理形成最终摘要,完成内容组织。其细分路径又包含生成式文本摘要(AATS),即形成抽象认知并创造新词灵活概括,和抽取式文本摘要(EATS),即直接抽取原始素材并拼接成简单概要。主流思路是分离文本属性及文本内容。 文本风格迁移 隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离,常见的有生成对抗方式,即通过GAN实现目标属性和文本属性完全由不同的编码控制的状态。 实现情绪、时态、性别、政治倾向等的分离及迁移 显式方法首先寻找并删除代表文风的短语,其次检索与目标文风最匹配的相似短语,最后生成目标语句并保证语句通顺、原意不变。要实现多种风格的转化,典型方法有在通用语料库上预训练基于Transformer的语言模型来初始化编码器-解码器,然后以多种风格语言模型作为鉴别器来增强其对多个目标风格维度的转换能力。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景,可分类为管道模式及端对端模式。管道模式即将对话拆分成四个主要模块(自然语言理解、历史状态追踪、对话策略选择、自然语言生成)并分别进行模型训练。端对端模式将对话过程转化为历史对话信息到系统回复的映射问题,利用一个Seq2Seq框架构建整个对话系统,并利用强化学习摆脱大量标注数据的限制,通过离散隐向量学习句子之间的依赖关系。 整段文本生成对话式&结构性文本生成 结构性的文本生成,首先通过注意力机制、多层感知器等系统进行语句内容预选,对数值、时间等类型数据进行推理,增强数据间的结构信息;其次通过Transformer等模式结合上下文进行推导,控制句法及文本连贯性,将语义与句法统一分析,最后采用Seq2Seq等模式,以BiLSTM为基础构建文本生成器,生成最终文本。目前而言,文本生成普遍具有上下文间逻辑问题、关键信息位置混淆、内容无中生有等问题 从现有的落地场景来看,我们将其划分为应用型文本和创作型文本生成,前者的进展明显优于后者。此外,从应用推广的角度来说,辅助文本创作是目前落地最为广泛的场景。 •应用型文本生成 应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、 公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。NarrativeScience创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。 在结构化写作场景下,代表性垂直公司包括AutomatedInsights(美联社Wordsmith)、NarrativeScience、textengine.io、AXSemantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。 •创作型文本生成 创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。 我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求,长文本写作对于议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。 除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。 在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、SnazzyAI、Rasa.io、LongShot.AI、彩云小梦等。 •文本辅助生成 除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场