您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[之江实验室]:生成式大模型安全与隐私白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

生成式大模型安全与隐私白皮书

2023-06-06徐晓刚、吴慧雯、刘竹森之江实验室从***
生成式大模型安全与隐私白皮书

之江实验室ZhejiangLab 基础理论研究院人工智能与安全团队 生成式大模型安全与隐私白皮书 作者: 徐晓刚,吴慧雯,刘竹森,李想,涂文轩,梁伟轩,张毅,刘哲 版权归之江实验室所有 欢迎交流 2023年6月6日 ThedevelopmentoftheGenerativeAI,e.g.,LargeLanguageModels(LLM),havebeenpopularinbothacademicandindustrialcommunitiesonaworldwidescale,especiallytheChatGPTseries.ThesuccessofChatGPTandGPT4hasshownthefuturedirectionofdevelopingAGI.However,largegenerativemodelsalsosufferfromtheissueofdata/modelsecurityandprivacy.Weshouldnotethatlargegenerativemodelswouldbringalotofsecurityandprivacyproblems,whentheydemonstrategreatpowerinchangingourlife,suchasdataleakingandthepropagationoffakenews.Inthiswhitepaper,wefirstconcludethedevelopmentoflargegenerativemodels,includingitseffectsandsocialinfluences.Then,wesummarizethecurrentsecurityandprivacyproblemsinexistinglargegenerativemodels,e.g.,thedataandmodelsecurity,copyrightproblems,andethicalissues.Finally,wegivethecorrespondingsuggestionsaboutthecurrentsecurityandprivacyproblems.Theycanbeemployedtopointoutfutureresearchanddevelopdirections,andcanalsobeutilizedasreferencesforgovernmentdecision-making. 目录 1序言1 2生成式大模型的发展之路1 2.1.ChatGPT和GPT4的前身1 2.1.1GPT11 2.1.2GPT24 2.1.3GPT35 2.1.4GPT3.57 2.1.5InstructGPT8 2.1.6GoogleBert10 2.2.ChatGPT和GPT411 2.2.1ChatGPT11 2.2.2GPT414 2.3.ChatGPT和GPT4之后发布的模型17 2.3.1Facebook:LLaMa17 2.3.2Stanford:Alpaca18 2.3.3百度:文心一言18 2.3.4阿里:通义千问19 2.3.5清华:ChatGLM19 3生成式大模型引发的变革20 3.1.应用1:助力人机交互20 3.2.应用2:助力信息资源管理20 3.3.应用3:助力科学研究22 3.4.应用4:助力内容创作23 4生成式大模型存在的安全问题24 4.1.生成式大模型的数据安全24 4.1.1生成式大模型使用过程中显式的隐私信息泄露24 4.1.2生成式大模型使用过程中隐式的隐私信息泄露24 4.2.生成式大模型的使用规范26 4.2.1生成式大模型被用于虚假和恶意信息/软件编写27 4.2.2生成式大模型违反当地法律法规28 4.2.3生成式大模型没有预警机制29 4.2.4生成式大模型安全优化不涉及灰色地带29 4.3.生成式大模型的可信和伦理问题30 4.3.1生成式大模型的可信问题30 4.3.2生成式大模型的伦理问题。31 4.4.生成式大模型的产权问题35 4.4.1生成式大模型生成作品的著作权问题35 4.4.2生成式大模型生成作品的侵权36 4.4.3生成式大模型生成作品的维权36 4.5.生成式大模型的模型安全37 4.5.1模型窃取攻击37 4.5.2数据窃取攻击39 4.5.3对抗攻击39 4.5.4后门攻击40 4.5.5Prompt攻击41 4.5.6数据投毒42 5生成式大模型存在的安全与隐私建议43 5.1.保护数据隐私的建议43 5.2.模型安全问题的建议45 5.3.模型合规性问题的建议45 6AGI的展望和安全规划46 7致谢48 1序言1 1序言 OpenAI于2022年11月30日开放测试ChatGPT,此后ChatGPT风靡全球,在1月份的访问量约为5.9亿。AI驱动的聊天机器人ChatGPT成为互联网发展二十年来增长速度最快的消费者应用程序。ChatGPT和GPT4的诞生引发了生成式大模型的研发热潮,显示了人类迈向通用人工智能(AGI)的可能性。 但在其备受追捧的同时,ChatGPT等生成式大模型也面临AI自身数据和模型方面的安全隐患。我们应该意识到,在生成式大模型带来各种革命性的技术进步的同时,其自身带来的一系列安全与隐私问题也值得我们注意,例如引发的数据泄漏,助长虚假信息传播等。在本白皮书中,我们首先总结了ChatGPT与GPT4等生成式大模型模型的发展历程,以及其带来的各种令人惊叹的能力和社会变革,社会应用等。而后,我们归纳了ChatGPT与GPT4等生成式大模型中存在的安全与隐私问题,包括数据安全,模型使用安全,版权问题,伦理问题等。最后,我们为应对这些安全与隐私问题提出了相应的应对策略,重点强调了日后亟需进行的研究和法规调整等。特别是为之后AGI技术的持续革新,起到未雨绸缪的预防。 2生成式大模型的发展之路 GPT(GenerativePre-trainedTransformer)是一种基于Transformer模型的语言生成模型,由OpenAI团队开发。自2018年发布以来,GPT系列模型已经成为自然语言处理领域的重要研究方向之一。图1概括了当前国内外有关GPT的研究现状。下面我们将先介绍ChatGPT与GPT4出现之前的模型,而后介绍ChatGPT与GPT4的原理与特点,之后将列举在ChatGPT与GPT4之后涌现的一系列代表性生成式大模型。 2.1.ChatGPT和GPT4的前身 如图2所示,本文将按照时间顺序介绍几种代表性的GPT方法。 2.1.1GPT1 2017年,Google推出Transformer,利用注意力机制完全替代过往深度学习中的卷积结构,直白地展现出了“大一统模型”的野心。2018年6月,OpenAI通过论文《ImprovingLanguageUnderstandingbyGenerativePre-Training》[47]推出了基于TransformerDecoder改造的第一代GPT(GenerativePre-Training),该 图1:国内外生成式大模型研究现状总结 图2:GPT系列模型的发展历程总结 模型是最早的将Transformer以多层堆叠的方式构成语言模型的模型,有效证明了在自然语言处理领域上使用预训练和微调方式的有效性。类似地,在计算机视觉领域,先预训练后微调的方式盛行已久:先用海量有标注的数据集,通过有监督的训练生成一个预训练模型,然后通过下游任务,在这个模型上做微调。但是在自然语言处理中,这个方式一直很难做起来,原因是:缺乏大量标注好的文本数据集、 图3:GPT1示意图 比起图像信息,文字的信息更难被模型理解。Transformer出世后,模型对文字上下文的理解能力得到显著增强,在这一铺垫下,GPT1诞生了。如图3所示1,它的整体设计思路如下:首先,用无标注的数据(可以理解为一段普通的文字)训练一个预训练模型。在这个环节里,我们培养模型文字接龙的能力,也就是给定前k个词,模型能预测出第k+1个词。然后,在模型能够理解文字含义的基础上,用有标注的数据训练模型去定向做一些下游任务。例如文本分类,文本相似性比较等。有标注的数据集是远小于无标注数据集的,在这个环节,我们只是对模型做了一些微小的调整。 (1)GPT1的优缺点 •优点:GPT1是第一个使用Transformer自回归模型的自然语言处理模型,可用于各种文本语言任务,如机器翻译,文本生成,对话生成等。 •缺点:GPT1没有全面的站点,在处理复杂的对话任务中容易走样,并且其预测结果不太准确。 (2)GPT1的应用场景 GPT1是第一个使用Transformer神经网络架构的语言模型,它使用了极大的文本数据集进行预训练。它的训练数据包括预定义的文本领域,如天气、体育、新闻等。GPT1采用自回归模型预测下一个词的出现概率,然后使用BeamSearch算法生成下一句话。GPT1在自建语料库上进行训练,训练得到的模型可用于各种下游任务,如基于任务的语言学习和对话生成等。 1此图引用于https://juejin.cn/post/7215806457961775160heading-8 图4:GPT2示意图 2.1.2GPT2 2018年10月Google推出基于Transformer编码器的Bert算法,在同样参数大小的前提下,其效果领跑于GPT1,一时成为自然语言处理领域的领头羊。基于Transformer的模型,模型和数据量越大,效果越好。但如果只做到这一点,从技术上来说又太逊色了,性价比也不高。因此,openAI在2019年02月从训练数据上进行改进,引入了zero-shot这一创新点,GPT2(GPT1:110M,Bert:340M,,GPT2:1.5B)就诞生了[48],如图4所示2。GPT2主要针对zero-shot问题,希望在完全不理解词的情况下建模,以便让模型可以处理任何编码的语言。下面我们将对其与GTP1的区别和自身的优缺点进行介绍。 (1)相较于GPT1的改进 GPT2去掉了微调层:不再针对不同任务分别进行微调建模,而是不定义这个模型应该做什么任务,模型会自动识别出来需要做什么任务。在预训练部分基本与GPT1方法相同,在微调部分把第二阶段的有监督训练自然语言处理任务,换成了无监督训练任务,这样使得预训练和微调的结构完全一致。当问题的输入和输出均为文字时,只需要用特定方法组织不同类型的有标注数据即可代入模型,如对于问答使用“问题+答案+文档”的组织形式,对于翻译使用“英文+法文”形式。用前文预测后文,而非使用标注数据调整模型参数。这样既使用了统一的结构做训练,又可适配不同类型的任务。虽然学习速度较慢,但也能达到相对不错的效果。另外GPT2将Transformer堆叠的层数增加到48层,隐层的维度为1600,参数量更是达到了15亿。 2此图引用于https://blog.csdn.net/Ashe_yang/article/details/119832916 (2)GPT2的优缺点 •优点:GPT2在GPT1的基础上进一步改进了模型,通过增加更多的参数 (1.5亿到15亿)来提高性能。同时GPT2可以生成更长的文本,更好地处理对话,并且有更好的通用性。 •缺点:GPT2的训练数据来自于互联网,这意味着它存在垃圾数据和不当信息的问题。这使得它偶尔会生成不适当的回答。此外,GPT2是封闭模型,无法对其进行修改或改进。 (3)GPT2的应用场景 应用场景:在性能方面,除了理解能力外,GPT2在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演通通不在话下。在“变得更大”之后,GPT2的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了彼时的最佳性能。 2.1.3GPT3 虽然预训练和微调在许多情况下效果显著,但是微调过程需要大量样本。