山东大学学报(哲学社会科学版)2023年第3期第127-143页 超越ChatGPT:生成式AI的机遇、 风险与挑战 陈永伟 摘要:以ChatGPT为代表的生成式AI的崛起是人工智能领域的一次重大变革,也可能成为由专用性人工智能转向通用性人工智能的关键转折点。生成式AI的爆发由算法、算力和数据的进步共同推动,其中算法层面的突破最为关键。生成式AI在消费端的应用场景主要有内容生产、便捷交互、简化操作,这些应用将会同时对消费者的消费品数量、质量、多样性,以及拥有的闲暇等因素产生显著影响。生成式AI对产业端的影响主要体现为加速自动化、通过“组合式创新”促进技术进步、实现对新要素尤其是新数据要素的创造,靠近生产领域的代表性应用有工业设计、药物研发、材料科学、合成数据等。生成式AI带来的问题主要有失业问题、收入分配和不平等问题、竞争和垄断问题、知识产权问题、安全和隐私问题、道德和伦理问题、能源和环保问题。为此,应从产业政策、就业和保障政策、法律法规建设等方面制定有针对性的措施。 关键词:生成式AI;AIGC;ChatGPT DOI:10.19836/j.cnki.37-1100/c.2023.03.012 2022年11月30日,美国人工智能公司OpenAI发布了大型语言模型ChatGPT。这款模型不仅可以根据上下文与用户进行对话,还可以完成包括文本写作、计划编制甚至编程在内的多种工作。模型一经发布,就在全球范围内受到了广大用户的追捧,上线五天用户就突破了百万,上线不到两个月用户就超过了一亿。从类别上看,ChatGPT属于“生成式AI”(GenerativeAI)的范畴。不同于过去的“分析式AI”(AnalyticalAI),这类人工智能模型不仅可以通过对数据的学习来提炼信息、预测趋势,而且可以生成不同于学习样本的新内容。随着技术的日渐成熟,市场上已经有了很多不同的生成式AI产品(见表1)。它们不仅为我们的生活带来了更多的便利性和多样性,也为生产力的提升带来了很大的想象空间。本文将从技术基础出发,对生成式AI的发展进行简要的介绍,并分析它的应用潜力、经济影响,以及可能存在的问题和风险。在此基础上,本文还将对有关生成式AI的政策进行一些探讨。 一、生成式AI的技术基础 生成式AI的爆发是算法、算力和数据的进步共同推动的,其中,算法层面的突破是最为关键的因素。 (一)生成式AI的主要训练算法 从根本上看,生成算法的本质就是对训练样本的分布状况进行建模,然后根据模型来抽取新的样本①。现在的生成式算法有很多,比较流行的有五大类模型:自回归模型、生成式对抗模型、变分自编码模型、流模型和扩散模型。 作者简介:陈永伟,《比较》研究部主管,研究员(北京100029;chenyongwei1982@126.com)。 ①Bond-TaylorS.,etal.,“DeepGenerativeModelling:AComparativeReviewofVaes,Gans,NormalizingFlows,Energy-basedandAutoregressiveModels”,IEEETransactionsonPatternAnalysisandMachineIntelligence,2021. 表1部分著名的生成式AI产品 模型名 用途 研发公司 发布时间 参数量 GPT⁃3 语言理解与生成 OpenAI 2020年5月 1750亿 ChatGPT 语言理解与生成 OpenAI 2022年11月 未知 BERT 语言理解与生成 谷歌 2019年10月 4810亿 PaLM 语言理解与生成 谷歌 2022年4月 5400亿 OPT⁃175B 语言理解与生成 脸书 2022年5月 1750亿 LLaMA 语言理解与生成 脸书 2023年2月 650亿 Turing⁃NLG 语言理解与生成 微软 2020年2月 170亿 Megatron⁃TuringNLG 语言理解与生成 微软、英伟达 2021年10月 5300亿 Gopher 语言理解与生成 DeepMind 2021年12月 2800亿 Dall⁃E2 根据文字生成图片 OpenAI 2022年9月 120亿 IMAGEN 根据文字生成图片 谷歌 2022年5月 200亿 StableDiffusion 根据文字生成图片 StabilityAI 2022年8月 未知 Midjourney 根据文字生成图片 Midjourney 2022年3月 未知 VisualGPT 根据图片生成文字 OpenAI 2021年2月 未知 Flamingo 根据图片生成文字 DeepMind 2022年5月 700亿 Phenaki 根据文字生成视频 谷歌 2022年10月 18亿 MusicLM 根据文字生成音乐 谷歌 2023年1月 未知 AlphaCode 代码生成 DeepMind 2022年2月 414亿 CodeX 代码生成 OpenAI 2021年8月 120亿 AlphaFold2 预测蛋白质折叠结构 DeepMind 2021年7月 9300万 资料来源:表格内容为作者根据公开资料整理。 1.自回归模型。自回归模型(autoregressivemodel,ARM)是一种“古老”的生成模型,其原理十分直观:它并不对决定训练数据分布状况的潜变量进行假设,而是直接根据它们的表征状况来对需要生成的内容进行推断①。尽管这种生成思路很简单,但它在处理文本生成、翻译等问题时却有不错的表现,包括ChatGPT在内的不少大型语言模型都是利用ARM训练的。 2.生成式对抗网络。最早的生成式训练算法是“生成式对抗网络”(generativeadversarialnetworks,简称GAN)。GAN是一种无监督训练模型,其基本思想是通过构建一个生成器和一个判别器来进行对抗②。其中,生成器负责根据其对样本数据的学习结果生成新数据,其目标是要让生成的数据和原样本数据足够相似,从而可以骗过判别器;而判别器则负责对数据进行辨别,其目标是尽可能识别出生成的数据。通过生成器和判别器之间的不断对抗进行参数调试,就可以让生成的内容不断接近训练样本。不过,GAN的问题也很明显:不仅其模型本身缺乏可解释性,而且不能保证生成 ①BengioY.,DucharmeR.,VincentP.,“ANeuralProbabilisticLanguageModel”,AdvancesinNeuralInformationProcessingSystems,2000,13,pp.932-938. ②GoodfellowI.,etal.,“GenerativeAdversarialNets”,AdvancesinNeuralInformationProcessingSystems,2014,2,pp.2672- 2680. 数据和训练数据来自同一分布,因而其生成的内容具有不稳定性。 3.变分自编码。在GAN出现的同一时期,另一些学者提出了另一种自无监督模型——“变分自编码”(VariationalAuto-Encoder,简称VAE)方法①。这个模型由编码器和解码器两个部分组成。编码器通过神经网络从训练数据中采集决定其性质的隐变量的均值向量和方差向量信息,解码器则通过这些信息来生成新的内容。通过对比生成数据和训练数据,模型就可以不断对隐变量的均值向量和方差向量进行重新迭代,从而提升生成内容的质量。相比于GAN,VAE方法不仅有更强的解释性,而且可以更好地保证生成数据和训练数据来自相同的分布,从而在模型表现上更为优越。 4.流模型。相比于GAN和VEA,流模型是一种思路更为直接的生成模型②。其原理是,直接计算出决定数据表征的潜变量的分布(一般假定为正态分布)与数据表征的分布之间的转移函数,用这个转移函数的反函数去计算出潜变量分布状况。在此基础上,就可以利用这些信息生成出新的内容。由于流模型会计算出决定数据表征的潜变量分布,因此它可以保证生成的内容和训练数据来自同一个分布,并且在模型的可解释性上有很好的表现。不过,相对于前两种模型,流模型对计算的要求更为严格,因此对算力的需求也更大,这在一定程度上限制了其受欢迎程度。 5.扩散模型。扩散模型是目前比较流行的一种生成模型③。和VAE模型一样,扩散模型会先通 过神经网络获得一些关键参数的分布状况。在生成过程中,模型会先执行一个前向过程,在原数据的基础上逐步加入噪声。在每一步中,参数都按照一个马尔可夫过程进行迭代,直到数据成为一个可以近似由纯正态分布噪声表示的数据。然后再紧接着进行后向过程,将刚才得到的数据逐步减噪解码,生成新的数据。以新数据和原数据的相似为目标对模型参数进行不断优化,就可以不断改善生成内容的效果。相比于GAN和VAE,扩散模型的训练更为稳定,可以生成的样本也更为丰富。不过,扩散模型的缺陷也十分明显,由于其训练过程比较复杂,因此其训练时长会比GAN长得多,对资源投入的要求也更大。 6.各种生成模型的性能比较。各种生成模型在表现上有很大的不同。在表2中,我们将五类生成模型的主要性能进行了对比。容易看到,每一类生成模型都有其各自的优点和不足,因而其适用的范围也各不相同。 表2不同生成模型的性能对比 生成模型 训练速度 生成速度 参数有效性 生成内容的规模 生成质量 生成内容多样性 训练稳定性 自回归模型 慢 慢 低 中 高 高 高 生成式对抗模型 快 快 高 高 高 低 低 变分自编码模型 快 快 高 高 低 高 高 流模型 慢 快 高 中 低 高 高 扩散模型 中 慢 高 中 高 高 高 资料来源:作者根据Bond-Taylor,etal.(2021)等文献整理。 (二)生成式AI的主要训练架构 除了训练方法,促成生成式AI爆发的另一个重要突破来自于训练架构,其中最有代表性的事件 ①KingmaD.,WellingM.,“Auto-encodingVariationalBayes”,ArXivPreprint,2014,No.1312.6114. ②DinhL.,KruegerD.,BengioY.,“NICE:Non-linearIndependentComponentsEstimation”,AarXivPreprint,2014,No.1410.8516. ③HoJ.,JainA.,AbbeelP.,“DenoisingDiffusionProbabilisticModels”,34thConferenceonNeuralInformationProcessingSystems,https://arxiv.org/pdf/2006.11239v2.pdf,访问日期:2023年2月27日。 是Transformer架构的出现。Transformer架构最早被应用于自然语言处理(naturallanguageprocessing,NLP)场景。在NLP处理中,通常会采用编码器—解码器(encoder-decoder)结构。在较早的实践中,编码器和解码器两端会各接一个循环神经网络(recurrentneuralnetwork,RNN)。编码器中的RNN负责将输入序列映射到一个固定长度的向量中,解码器中的RNN则负责将向量映射到一个输出序列中。RNN有很多固有的缺点,例如,它只能按照顺序对序列进行处理,不支持并行运算,因此处理速度很慢。更为重要的是,RNN难以克服“长期依赖问题”,在处理长文本时,会不可避免地丧失之前学习的信息,从而让优化难以进行。为了解决这些问题,人们进行了很多尝试,提出了LSTM、GRU等模型,但这些模型都依然存在着某些缺陷。 2017年,谷歌团队提出了Transformer架构①。为了解决早期模型存在的问题,Transformer引入了一种“自注意力”(self-attention)机制。利用这个机制,就可以根据每一个词所处的位置来确定它和其他词之间的相关性,从而直接输出最有可能关联的信息②。