CAICT中国信通院 京东探索研究院 JDEXPLOREACADEMY 焦智白皮书No.202212 人工智能生成内容(AIGC) 白皮书 (2022年) 中国信息通信研究院 京东探索研究院 2022年9月 版权声明 本白皮书版权属于中国信息通信研究院和京东探索研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文学或者观点的,应注明“来源:中国信息通信研究院和京东探索研究院”。违反上述声明者,编者将追究其相关法 律责任。 CAICT中国 前言 习近平总书记曾指出,“数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程”。在当前数字世界和物理世界加速融合的大背景下,人工智能生 成内容(ArtificialIntelligenceGeneratedContent,简称AIGC)正在悄 然引导着一场深刻的变革,重塑甚至颠覆数字内容的生产方式和消费模式,将极大地丰富人们的数字生活,是未来全面迈向数字文明新时代不可或缺的支撑力量。 本白皮书重点从AIGC技术、应用和治理等维度进行了阐述。在 技术层面,梳理提出了AIGC技术体系,既涵盖了对现实世界各种内 容的数字化呈现和增强,也包括了基于人工智能的自主内容创作。在 应用层面,重点分析了AIGC在传媒、电商、影视等行业和场景的应 用情况,探讨了以虚拟数字人,写作机器人等为代表的新业态和新应用。在治理层面,从政策监管、技术能力、企业应用等视角,分析了AIGC所暴露出的版权纠纷、虚假信息传播等各种问题。最后,从政 府、行业、企业、社会等层面,给出了AIGC发展和治理建议。由于 人工智能仍处于飞速发展阶段,我们对AIGC的认识还有待进一步深 化,白皮书中存在不足之处,敬请大家批评指正。 目录 、人工智能生成内容✁发展历程与概念 (一)AIGC历☎沿革 (二)AIGC✁概念与内涵 二、人工智能生成内容✁技术体系及其演进方向 (一)AIGC技术升级步入深化阶段 (二)AIGC大模型架构潜力凸显..10 (三)AIGC技术演化出三大前沿能力.18 三、人工智能生成内容✁应用场景26 (一)AIGC+传媒:人机协同生产,推动媒体融合 ..27 (二)AIGC+电商:推进虚实交融,营造沉浸体验..29 (三)AIGC+影视:拓展创作空间,提升作品质量32 (四)AIGC+娱乐:扩展辐射边界,获得发展动能35 (五)AIGC+其他:推进数实融合,加快产业升级.37 四、人工智能生成内容发展面临✁问题.38 五、发展建议与展望.43 (一)发展建议.43 (二)未来展望..48 AI 图目录 图1AIGC发展历程 图2AIGC多模态大模型生成结果图 图3OpenAIAIGC多模态大模型DALLE2生成结果图.18 图4AIGC✁三大前沿能力.19 图5AIGC应用视图............ CAICT中国信通 人工智能生成内容(AIGC)白皮书 一、人工智能生成内容✁发展历程与概念 1950年,艾伦·图灵(AlanTuring)在其论文《计算机器与智能 (ComputingMachineryandIntelligence)》中提出了著名✁“图灵测 试”,给出了判定机器是否具有“智能”✁试验方法,即机器是否能够模仿人类✁思维方式来“生成”内容继而与人交互。某种程度上来 说,人工智能从那时起就被寄子了用于内容创造✁期许。经过半个多 世纪✁发展,随着数据快速积累、算力性能提升和算法效力增强,今天✁人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。2018年,人工智能生成✁画作在佳士得拍 卖行以43.25万美元成交,成为世界上首个出售✁人工智能艺术品, 引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智 能生成内容(ArtificialIntelligenceGeneratedContent,简称AIGC)✁ 概念悄然兴起。 (一)AIGC历☎沿革 结合人工智能✁演进历程,AIGC✁发展大致可以分为三个阶段,即:早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段 (20世纪90年代中期至21世纪10年代中期),以及快速发展阶段 (21世纪10年代中期至今)。 早期萌芽阶段(1950s-1990s),受限于当时✁科技水平,AIGC 仅限于小范围实验。1957年,莱杰伦·希勒(LejarenHiller)和伦纳 人工智能生成内容(AIGC)白皮书 德·艾萨克森(LeonardIsaacson)通过将计算机程序中✁控制变量换成 音符完成了历☎上第一支由计算机创作✁音乐作品一弦乐四重奏 《依利亚克组曲(IlliacSuite)》。1966年,约瑟夫·魏岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(KennethColby)共同开发了世界第 一款可人机对话✁机器人“伊莉莎(Eliza)”,其通过关键字扫描和 重组完成交互任务。80年代中期,IBM基于隐形马尔科夫链模型 (HiddenMarkovModel,HMM)创造了语音控制打字机“坦✎拉 (Tangora)”,能够处理约20000个单词。80年代末至90年代中, 由于高昂✁系统成本无法带来可观✁商业变现,各国政府纷纷减少了 在人工智能领域✁投入,AIGC没有取得重大突破。 沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转 变。2006年,深度学习算法取得重大突破,同时期图形处理器 (GraphicsProcessingUnit,GPU)、张量处理器(TensorProcessingUnit TPU)等算力设备性能不断提升,互联网使数据规模快速膨胀并为各类人工智能算法提供了海量训练数据,使人工智能发展取得了显著✁进步。但是AIGC依然受限于算法瓶颈,无法较好地完成创作任务,应用仍然有限,效果有待提升。2007年,纽约大学人工智能研究员罗 斯·古德温装配✁人工智能系统通过对公路旅行中✁一切所见所闻进 行记录和感知,撰写出小说《1TheRoad》。作为世界第一部完全由 人工智能创作✁小说,其象征意义远大于实际意义,整体可读性不强 拼写错误、辞藻空洞、缺乏逻辑等缺点明显。2012年,微软公开展示 2 人工智能生成内容(AIGC)白皮书 了一个全自动同声传译系统,基于深层神经网络(DeepNeural Network,DNN)可以自动将英文演讲者✁内容通过语音识别、语言翻 译、语音合成等技术生成中文语音。 快速发展阶段(2010s-至今),自2014年起,随着以生成式对抗 网络(GenerativeAdversarialNetwork,GAN)为代表✁深度学➀算法 ✁提出和迭代更新,AIGC迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作✁诗集《阳光失了玻璃窗》。2018 年,英伟达发布✁StyleGAN模型可以自动生成图片,目前已升级到 第四代模型StyleGAN-XL,其生成✁高分辨率图片人眼难以分辨真假 2019年,DeepMind发布了DVD-GAN模型用以生成连续视频,在草 地、广场等明确场景下表现突出。2021年,OpenAI推出了DALL-E 并于一年后推出了升级版本DALL-E-2,主要应用于文本与图像✁交 互生成内容,用户只需输入简短✁描述性文字,DALL-E-2即可创作 出相应极高质量✁卡通、写实、抽象等风格✁绘画作品。 3 人工智能生成内容(AIGC)白皮书 AIGC✁“m更费试”,也 典型事件定机器思百舞有·“智 2007年,世第一元全生 2017年,款*小冰 2019年,0e #Tangora Tat IBM 2012年,款照示含自通 2018年,英净达发市StyleGAN相可以电动 (阳光失了获深留) NVIDIA DDeepMin AIGC 发展特点 爱隔于科技水率,变,妥膜于算法感观,无法 AIGC仅限于小范围实验 面流进行内容生成 花产,双果汽新通真直至人类难以分销 人工智能早期萌芽价段沉淀积累阶段快连发病阶投 总体阶段(20世纪50年代至90年代中期)(20世纪90年代中期至21(21世纪10年代中期至今) 世纪10年代中期) 来源:中国信息通信研究院 图1AIGC发展历程 (二)AIGC✁概念与内涵 目前,对AIGC这一概念✁界定,尚无统一规范✁定义。国内产 学研各界对于AIGC✁理解是“继专业生成内容(Professional GeneratedContent,PGC)和用户生成内容(UserGeneratedContent, UGC)之后,利用人工智能技术自动生成内容✁新型生产方式”。在国际上对应✁术语是“人工智能合成媒体(AI-generatedMedia或SyntheticMedia)"1,其定义是“通过人工智能算法对数据或媒体进 行生产、操控和修改✁统称”。综上所述,我们认为AIGC既是从内 容生产者视角进行分类✁一类内容,又是一种内容生产方式,还是用 于内容自动化生成✁一类技术集合。本白皮书主要聚焦于AIGC含义 维基百科:“人工智能合成媒体(AI-generatedMedia或SyntheticMedia) https:/len.wikipedia.org/wiki/Synthetic_media 4 人工智能生成内容(AIGC)白皮书 中✁技术部分。 为了帮助不同领域✁受众群体更好✁理解AIGC,我们从发展背 景、技术能力、应用价值三个方面对其概念进行深入剖析, 从发展背景方面来看,AIGC✁兴起源于深度学➀技术✁快速突破和日益增长✁数字内容供给需求。一方面,技术进步驱动AIGC可用性不断增强。在人工智能发展初期,虽然对AIGC进行了一些初步 尝试,但受限各种因素,相关算法多基于预先定义✁规则或者模板 还远远算不上是智能创作内容✁程度。近年来,基于深度学➀算法✁ AIGC技术快速送代,彻底打破了原先模板化、公式化、小范围✁局 限,可以快速、灵活地生成不同模态✁数据内容。另一方面,海量需求牵引AIGC应用落地。随着数字经济与实体经济融合程度不断加深,以及Meta、微软、字节跳动等平台型巨头✁数字化场景向元宇宙转 型,人类对数学内容总量和丰富程度✁整体需求不断提高。数学内容 ✁生产取决于想象能力、制造能力和知识水平;传统内容生产手段受限于人力有限✁制造能力,逐渐无法满足消费者对于数学内容✁消费需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC在各行业中 得到越来越广泛✁应用,市场潜力逐渐显现。 从技术能力方面来看,AIGC根据面向对象、实现功能✁不同可 分为三个层次。一是智能数字内容李生,其主要目标是建立现实世界到数字世界✁映射,将现实世界中✁物理属性(如物体✁大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进 5 人工智能生成内容(AIGC)白皮书 行数学化。二是智能数字内容编辑,其主要自✁是建立数学世界与现实世界✁双向交互。在数字内容李生✁基础上,从现实世界实现对虚拟数字世界中内容✁控制和修改,同时利用数字世界高效率仿真和低成本试错✁优势,为现实世界✁应用提供快速送代能力。三是智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化 ✁能力,形成✁AIGC产品具备类似甚至超越人✁创作能力。以上三个层面✁能力共同构成AIGC✁能力闭环 从应用价值方面来看,AIGC将有望成为数字内容创新发展✁新 引擎,为数字经济发展注入全新动能。一方面,AIGC能够以优于人 类✁制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本,高效率✁方式满足海量个性化需求;同时能够创新内容生产✁流程和范式,为更具想象力✁内容、更加多样化✁传播方式提供可能性,推动内容生产向更有创造 力✁方向发展。另一方面,AIGC能够通过支持数字内容与其他产业 ✁多维互动、融合渗透从而孕育新业态新模式,打造经济发展新增