深度合成应用先行,监管跟进保障良性发展。2022年1月28日,国家网 信办关于《互联网信息服务深度合成管理规定(征求意见稿)》公开征求意 见。“深度合成"出现在公众面前为2017年明星换脸事件,背后的AI技 术主要包括自动编码机(auto encoders)和生成对抗网络(简称GAN)。自动 编码器是一个人工神经网络,被训练来对输入数据进行重建(reconstruct) 以实现数据合成。GAN由两组相互对抗的人工神经网络组成,其中一个网 络负责生成数据,另一个网络负责甄别。总的过程可以分为三个步骤:数 据提取、数据训练和转换,过程中需要用到图片、音视频融合等技术,技 术已率先落地元宇宙应用。 深度合成监管对象明确,落地细节充分。“深度合成”在此次规范中被定 义为利用以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、 音频、视频、虚拟场景等信息的技术。常见的场景包括:文字、语音、音 乐、图像(生物)、三维深度和成等。深度合成服务提供者提供部分深度 合成服务时,应当使用显著方式对深度合成信息内容进行标识,向社会公 众有效提示信息内容的合成情况,如提供智能对话、智能写作,提供合成 人声、仿声等。 此次的征求意见稿则更彻底、更有针对性,或有利于满足合规需求的元宇 宙头部企业良性发展。《互联网信息服务深度合成管理规定(征求意见稿)》 并不是我国监管方面首次关注深度合成,将于2022年3月1日实施的 《互联网信息服务算法推荐管理规定》、《网络信息内容生态治理规定》, 已于2022年1月1日实施的《网络音视频信息服务管理规定》等法律法 规中均不同程度地涉及到深度合成技术的规制,但这些法规更多是从某一 特定技术领域(比如说音视频)或从较为宏观的角度设定规则,而此次的 征求意见稿则更彻底、更有针对性,有利于技术良性发展,防止技术滥用, 或有利于满足合规需求的元宇宙领先企业发展。 风险提示:行业竞争加剧风险;政策力度不及预期风险;宏观经济风险。 深度合成起源与主要原理 “深度合成"依赖于人工智能技术,尤其是可以从大量数据中自主学习的深度学习算法模型。“深度合成"背后的AI技术主要包括自动编码机(autoencoders)和生成对抗网络"generativead¬versarialnetworks,简称GAN)。自动编码器是一个人工神经网络,被训练来对输入数据进行重建(reconstruct)以实现数据合成。GAN由两组相互对抗的人工神经网络组成,其中一个网络负责生成数据,另一个网络负责甄别。具体而言,在GAN的两个机器学习系统中,生成网络(generativenetwork)或者说生成器(generator)负责制作复制了原始数据集特征的合成数据如图片 、 音频记录 、 视频等 , 鉴别网络"discriminativenetwork)或者说鉴别器"discriminator)则负责识别合成的数据。基于每次迭代的结果,生成网络不断进行调整以创造越来越逼真、越来越接近于原始数据的新数据。 就“深度合成"的实现过程而言,总的来看可以分为三个步骤一数据提取、数据训练和转换,过程中需要用到图片融合等技术。以人脸替换为例,第一步是数据提取,这步需要收集足够的人脸图像,以便来训练算法模型。主流的方法是借助软件从视频中提取源人物(thesourceperson)和目标人物(thetargetperson)的多角度图像并裁剪出脸部肖像,形成脸部结构和头部尺寸相似的人脸图像。第二步是训练,即利用收集到的图像对人脸替换模型进行训练。模型训练通常用到两种AI技术,即包含编码器和解码器的自动编码机"autoencoder)这一神经网络,以及更复杂的生成对抗网络(GAN)。最后一步是合成,这是技术上最具挑战性的任务,需要将合成的图像插入视频中。这意味着要确保视频中的每帧合成图像的自然度和真实性,让合成人脸的角度与目标人物的头部角度完全一致。 根据一些AI专家的看法,这是“深度合成"过程中唯一需要依靠手写代码而非端到端机器学习算法的阶段。 图表1:腾讯优图人脸深度合成训练框架 深度合成新规适用领域:文本、图像、音视频等 规定第二条对于“深度合成”的定义为:“利用以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、音频、视频、虚拟场景等信息的技术”,常见的场景包括: (1)人脸替换(facereplacement):也被称为换脸(faceswapping),主要是指将某一个人的脸部图像(源人物)“缝合"到另外一个人的脸上(目标人物),从而覆盖目标人物的面部。 (2)人脸再现(facere-enactment):主要是指利用深度合成技术改变人的面部特征,包括目标对象的嘴部、眉毛、眼睛和头部的倾斜,从而操纵目标对象的脸部表情。人脸再现不同于AI换脸,不是为了替换身份,而是改变某个人的脸部表情,从而让其看起来在说他们从未说过的话。 (3)人脸合成(facegeneration):“深度合成"技术还可被用来创建全新的人脸图像。这些随机生成的人脸图像很多都可以媲美真实的人脸图像,有一部分可以代替一些真实肖像的使用,比如广告宣传、用户头像等。GeneratedPhotos就是一个AI自动生成人脸的网站,该资源库包含有10万张由人工智能生成的免版税人脸,该公司的免费图片可被用于网络及移动应用程序、教育、讲义、电子邮件与时事通讯、登陆页面以及用户头像等方面,只要求用户在使用时标明来源即可。 (4)语音合成(speechsynthesis):语音合成涉及创建特定的声音模型,不仅可以将文字转化成声音,而且可以转化为接近真人语调和节奏的声音。例如,加拿大的语音合成系统RealTalk,与以往基于语音输入学习人声的系统不同,它可以仅基于文本输入生成完美逼近真人的声音。此外,Modu-late.ai的语音合成产品,允许用户自主选择任何年龄段和性别的语音模型,而不是模仿特定目标的声音。 图表2:深度合成主要应用领域及其技术特征 “深度合成”监管的历史沿革 《互联网信息服务深度合成管理规定(征求意见稿)》并不是我国监管方面首次关注深度合成,此前在《互联网信息服务算法推荐管理规定》《网络音视频信息服务管理规定》《网络信息内容生态治理规定》等法律法规中均不同程度地涉及到深度合成技术的规制,但这些法规更多是从某一特定技术领域(比如说音视频)或从较为宏观的角度设定规则,而此次的征求意见稿则更彻底、更有针对性。 2022年3月1日正式实施,《互联网信息服务算法推荐管理规定》 发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输(第9条)不得生成合成虚假新闻信息(第13条) 2020年3月1日正式实施,《网络信息内容生态治理规定》 网络信息内容服务使用者和网络信息内容生产者、网络信息内容服务平台不得利用深度学习、虚拟现实等新技术新应用从事法律、行政法规禁止的活动。(第23条) 2020年1月1日正式实施,《网络音视频信息服务管理规定》 网络音视频信息服务提供者基于深度学习、虚拟现实等新技术新应用上线具有媒体属性或者社会动员功能的音视频信息服务,或者调整增设相关功能的,应当按照国家有关规定开展安全评估。(第10条) 网络音视频信息服务提供者和网络音视频信息服务使用者利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播非真实音视频信息的,应当以显著方式予以标识。 (第11条第1款) 网络音视频信息服务提供者和网络音视频信息服务使用者不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻信息。转载音视频新闻信息的,应当依法转载国家规定范围内的单位发布的音视频新闻信息。(第11条第2款) 网络音视频信息服务提供者应当加强对网络音视频信息服务使用者发布的音视频信息的管理,部署应用违法违规音视频以及非真实音视频鉴别技术,发现音视频信息服务使用者制作、发布、传播法律法规禁止的信息内容的,应当依法依约停止传输该信息,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信、文化和旅游、广播电视等部门报告。(第12条第1款) 网络音视频信息服务提供者发现不符合本规定第十一条第一款要求的信息内容的,应当立即停止传输该信息,以显著方式标识后方可继续传输该信息。(第12条第2款) 网络音视频信息服务提供者应当建立健全辟谣机制,发现网络音视频信息服务使用者利用基于深度学习、虚拟现实等的虚假图像、音视频生成技术制作、发布、传播谣言的,应当及时采取相应的辟谣措施,并将相关信息报网信、文化和旅游、广播电视等部门备案。(第13条)。 图表3:部分深度合成服务需进行标识 风险提示 行业竞争加剧风险:网络安全行业竞争较为激励,如果行业行业竞争进一步加剧,或对毛利率产生不利影响。 政策力度不及预期风险:等保2.0、护网行动等合规政策执行力度若不及预期,将影响企事业单位对于网安产品及服务的需求。 宏观经济风险:疫情影响下,宏观经济面临下行风险,可能导致各行业企业网安支出受到影响。