前言 •不可否认AIGC的出现似乎已经让大家预见了AI应用的拐点,其创造性与智能性一夜之间刷新了大众认知。但去伪存真,在市场火爆的背后其真正的应用及商业价值几何,更待我们冷静地剖析。基于此,甲子光年智库特此展开AIGC应用与实践研究,输出《AIGC应用与实践研究报告》,期待与各方共同见证AIGC行业的星辰大海。 AIGC时代已来,算力及数据下训练的“暴力美学”实现内容生成质的突破 内容生成的低成本及高效率必 然会冲击现有的商业模式 AI企业、互联网企业、垂直行业的数字化科技企业在AI能力加持下需要再出发 AIGC如何从内容生成 本次报告探讨的问题 去伪存真,研判AIGC在引发热烈讨论背后的商业价值,尤其是围绕内容作业体系下的革新。 1.AIGC的本质剖析及AIGC背后的新一代人工智能技术革新? 2.基于技术及商业的价值,AIGC将会如何改变内容产业的作业模式,对现有商业模式带来哪些机遇及冲击? 3.当下AIGC产业链及核心玩家可能是谁,如何在细分领域完成产品及服务? 4.AIGC时代到来,企业及个人需要如何面对? 撬动作业模式改变 www.jazzyear.com Part01概念重生:AIGC是内容生成方式一次进化 目录 Part02行业颠覆:内容生产体系的作业模式走向工程化 Part03产业变革:五湖四海涌向AIGC开阔地 Part04未来可期:在探索中寻找人类与机器的平衡 缘起于GC,而归于AI,AIGC的关键是AI突破了人类生产“内容”的特权 •目前广受热议的“AIGC”实际是对此次AI技术变革的一种描述概念,即AI(或者说以硅为基本构成的计算机)具备了人类社会中“内容生成概念”的能力,而不是随意生成人类社会共识下无法理解的文字语句、图片、人像、视频等等。 •AIGC概念具备狭义和广义区别,狭义概念更强调内容属性,广义概念强调AI的技术属性: 狭义的概念重点关注的是数字内容的生产形式(SyntheticMedia),和人类生成内容方式对比,例如文字、图片、视频等常规内容形式如何一步通过AI生产; 广义的概念则突出生成式AI(GenerativeAI)的概念,即如何通过生成式AI的技术思路解决以往决策式AI难以完成的问题,尤其在数据或者内容生成上实现“质的突破”。随着生成式对抗网络(GenerativeAdversarialNetwork,GAN)等的演进及迭代,生成式AI可以延展到流程、策略、代码、蛋白质结构等多种形式,即意味着凡是可以使用数字内容形式的产业,生成式AI均可以涉及。此次报告在广义的概念下进行讨论。 广义的概念:更关注如何利用生成式AI技术在涉及数字内容的诸多领域实现改变及突破: 首先对内容的作业模式进行了流程再造 其次对内容质量及成本的改变,改变了交互的效果及效率 生成式AI实际上扩大了“内容”的含义,凡是可以数字化的内容形式均为生成对象,而非传统意义下媒体环境的内容 AIGC AI-UGC AI-assisted-GeneratedContent内容生产主体从人类本 身开始向人工智能迁移,主要区别体现在内容的生产效率、知识图谱的多样性以及提供更加动态且可交互的内容上 UGC User-GeneratedContent 内容生成及传播成本由于互联网时代的,无需专业人士完成,总体内容生产数量有所提升 PGC Professionally-GeneratedContent内容生成成本高,需要 专业人士完成内容生成, 总体内容生产数量低 生成式AI 从大量数据中学习并生成新的数据或内容 即将改变人类社会所有内 容相关的工作方式 狭义的概念:关注内容(GeneratedContent)的生成方式,即是否内容的最终形 分析式AI 通过对输入数据进行分析和推理,实现感知、认知及决策 改变了人类社会所有判断相关的工作流程 态由AI完成,来自于互联网之前对内容生成方式描述比较(PGC&UGC),对生成主体的不同(人VS机器)、数量及规模的上限,生成速度的巨大差异进行比较 注:此处表示的整个AI技术的大致方向 www.jazzyear.com AIGC提供了机器“从无到有”媒体内容生成能力 •从内容生产的流程看,内容生产粗略地由“采集”、“加工”、“审核”三个步骤组成,这三个步骤以线性的方式逐步推进,最终完成内容的生产。 •AIGC技术使得机器可以在内容生产过程中尽量实现“自动化”,减少人的工作量;AIGC技术进步使得机器越来越走向“自动化”,实现了“从无到有”。 如果完全按照AI技术参与内容生产流程判断,大多数情况下是AI作为辅助完成内容的生产,但由于内容生产流程的复杂性,往往生成式AI参与的内容生产环节往往被称为“AIGC” 完全态“AIGC” 分级 0级 1级 2级 3级 4级 5级 发展趋势 内容生产模式 生产人生产内容 机器辅助审核 机器辅助加工 机器有条件自动生产 内容 机器高强度生产内容 机器完全自动生产内容 生产主体 采集 生产人 生产人 生产人 生产人和机器 生产人和机器 机器 AI渗透率↑ 生产力↑ 加工 生产人 生产人 生产人和机器 生产人和机器 机器 机器 审核 生产人 生产人和机器 生产人和机器 机器 机器 机器 机器生产力的限制情况 采集 受限 受限 受限 部分受限 部分受限 不受限 加工 受限 受限 部分受限 部分受限 不受限 不受限 审核 受限 部分受限 部分受限 不受限 不受限 不受限 技术示例 •素材上传、存储、分类、检•自动标题、自动摘要、智能•抓取线上数据•支持固定位置的线下设备进•支持可移动设备自动进行数索、权限设置•支持内容审核,包括文字规字幕、文本生成•根据内容模板利用线上数据行数据采集据采集 •多媒体内容编辑,提供文字范性核查,人物/机构/地域等•在内容审核过程中自动屏蔽自动生成内容•支持根据已设定的内容模板•分析原始数据,自动判断是技术能力↑ 图片、视频功能实体属性核查剔除或修改内容•采集素材的规范性与准确性对原始数据进行加工后自动生否需要进一步采集,并根据素 •内容在线批注、修改审核成内容材挑选模板自动生成内容 www.jazzyear.com AIGC发展历程的拐点体现在媒体内容生成效果“质的突破” •AIGC的技术不是2022年才突然出现,而是随着AI技术迭代而出现,早期主要是受制于算法、算力及信息数字化的程度(数据信息的成本)。 •随着机器智能的规模效应,及社会对于信息化的使用程度大规模上升(大量线上数据产生),AIGC迎来了发展的机遇,并且在2022年产品和服务效果在商业化规模效应下表现受到关注。 生成式AI迎来了更好的发展土壤 更好的模型,更多的数据,更多的算力 1950s-1990s1990s-2010s 早期萌芽阶段沉淀积累阶段 2010s-20212022至今 快速发展阶段产品爆发阶段 受限于科技水平,AIGC仅限于小范围实验 AIGC从实验性向实用性转变,受限于算法瓶颈,无法直接进行内容生成 深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真直至人类难以分辨 迎来集中爆发,多款产品出圈 •1950年,艾伦·图灵提出著名的“图灵测试”,给出判定机器是否具有“智能”的试验方法 •1957年,第一支由计算机创作的弦乐四重奏《依利亚克组曲(llliacSuite)》完成. •80年代中期,IBM创造语音控制打字机Tangora •2007年,世界第一部完全由人工智能创作的小说《1TheRoad》问世 •2012年,微软展示全自动同声传译系统,可将英文演讲者的内容自动翻译成中文语音 •2017年,微软“小冰”推出世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》 •2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为首个出售的人工智能艺术品 •2019年,DeepMind发布DVD-GAN模型用以生成连续视频 •2021年,OpenAI推出了DALL-E,主要应用于文本与图像交互生成内容 •2022年8月StabilityAI发布的 StableDiffusion模型。 •2022年11月30日推出的人工智能聊天工具ChatGPT 该阶段:从技术角度上,持续进行尝试,实现算法在局部领域的突破,但是受制于算力、能耗及基础设施的不足,未能实现实际生成中的“生成”效果,如训练计算的增长符合摩尔定律,大约每20个月翻一番。 自2010年代早期深度学习(DeepLearning)问世以来,训练计算的规模加快,大约每6个月翻一番。2015年末,随着公司开发大规模ML模型,训练计算需求增加10至100倍。2015-2016年左右,出现了大规模模型的新趋势。这一新趋势始于2015年末的AlphaGo,并持续至今 www.jazzyear.com AIGC在内容层面产生的效果源于“基础模型”可以广泛使用 •人工智能基于漫长的研究过程,正在经历范式上的转变:基于通用类模型构建人工智能(AI)系统,这种模型则被称为基础模型,即在大规模数据上训练并适配(微调,finetune)到各种下游任务的模型。 从技术角度来看,基础模型并不新鲜:它们基于深度神经网络和自监督学习,两者都已经存在了几十年 Transformer的应用标志着基础模型时代的开始(基础模型的庞大规模和应用范围突飞猛进) •技术层面上,基础模型通过迁移学习(TransferLearning)和规模(scale)得以实现 •深度学习中,预训练又是迁移学习的主要方法:在替代任务上训练模型(通常只是达到目的的一种手段),然后通过微调来适应感兴趣的下游任务。迁移学习(TransferLearning)使基础模型成为可能 卷积神经网络 (CNN) 双向编码表示 (BERT) 生成预训练变压器(GPT) 数字内容的孪生能力 将现实物理世界中数字世界复刻一遍 递归神经网络 (RNN) 蒙特卡洛树搜索(MCTS) 代表具有里程碑的 关键创新 受限玻尔兹曼机(RBM) PaulSmolensky 多层感知机 (MLP) 非线性激活 深度玻尔兹曼机(DBM) 长短期记忆 (LSTM) 生成对抗网络 (GAN 注意力机制 (Attention) RNN改进 Attention&Transformer 深度强化学习 (DQN) 残差网络 (ResNet) GPT3 AlphaFold2 AlphaFold chatGPT(GPT3.5) MT-NLG 数字内容的智能编辑 将数字世界的化身数据进行修改编辑 数字内容的智能创作 高效生成人类可以理解的数字内容 代表相关算法开创者所在公司或阵营 反向传播(BP)概率模型高维词向量 AlexNet&Dropout 1900年-1980年 1980年-1990年 1990年-2000年 2000年-2010年 2010-2020年 2020年-至今 www.jazzyear.com AIGC产业的发展来自于算法、数据及算力的综合推动 算法 跨模态融合 数据 数据巨量化 算力 内容创造力 AIGC 算法层面核心技术突破 多模态认知计算 感知+交互 数字孪生虚拟现实 全息立体应用场景 –从现实生成数字:AIGC利用AI技术构建模拟现实世界的数字孪生模型; 数据层面 高精大数度训据语练集料库投喂训练标注 计算任务 算力层面 硬件算力 本地化 实时算力 云计算 智能交互 边缘计算 –从数字生成数字:AI能够学习并创 作更丰富的内容; –从数字生成现实:AIGC基于物联网,多模态技术获取多维信息,实现更 加智能的人与机器互动。 当下的时代机遇:大规模模型的摩尔定律-单模型参数量每年增长10倍 www.jazzyear.com AIGC面对的训练变化:训练所需的资源仅仅是成功的“必要不充分条件” 模型训练涉及的基础资源提升在方向上(理论上)能够决定模型训练的效率和结果 算力规模 充足的能耗 实际上可以看作“必要不 调参过程实际上类似于“实验”:“调参”的结果与以往 数据质