PromptGenerate LargeLanguageModel 生成式大模型安全评估白皮书 大模型安全白皮书参与人名单 联合编写 智能算法安全重点实验室(中国科学院)公安部第三研究所 蚂蚁安全实验室 编写组组长 程学旗——智能算法安全重点实验室主任(中国科学院) 编写组成员 智能算法安全重点实验室(中国科学院):敖翔、尹芷仪、张曙光、王晓诗、李承奥、 陈天宇、景少玲、张玉洁、张函玉、张晓敏公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉 版权声明 凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:《生成式大模型安全测评白皮书》。 前言 自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。 我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。 近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。 工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。 为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人 目录 一、生成式大模型发展现状01 1.1生成式大语言模型02 1.1.1OpenAIGPT系列02 1.1.2MetaLLaMA系列08 1.1.3国产生成式大语言模型10 (1)复旦大学:MOSS11 (2)百度:“文心一言”11 (3)智谱清言:ChatGLM12 (4)阿里云:“通义千问”12 (5)百川智能:百川大模型13 (6)科大讯飞:讯飞星火认知大模型13 (7)华为:盘古大模型14 (8)腾讯:混元大模型14 (9)月之暗面:Moonshot大模型15 (10)MiniMax:ABAB大模型15 1.2文生图大模型16 1.2.1DALL-E系列16 1.2.2Midjourney18 1.2.3文心一格18 1.3多模态大模型19 1.3.1Suno20 1.3.2Sora20 1.3.3CLIP21 1.3.4紫东太初21 二、生成式大模型的安全风险23 2.1伦理风险23 2.1.1加剧性别、种族偏见与歧视23 2.1.2传播意识形态,危害国家安全25 2.1.3学术与教育伦理风险26 2.1.4影响社会就业与人类价值27 2.2内容安全风险28 2.2.1可信与恶意使用风险28 (1)制造恶意软件28 (2)传播虚假信息29 (3)违反法律法规30 (4)缺乏安全预警机制31 2.2.2隐私风险33 (1)侵犯用户隐私信息33 (2)泄露企业机密数据35 2.2.3知识产权风险36 (1)训练阶段存在知识产权风险36 (2)应用阶段存在知识产权风险37 (3)生成式大模型知识产权保护38 2.3技术安全风险39 2.3.1对抗样本攻击风险39 2.3.2后门攻击风险40 2.3.3Prompt注入攻击风险41 2.3.4数据投毒风险42 2.3.5越狱攻击风险42 三、生成式大模型的安全评估方法44 3.1生成式大模型安全性评估维度45 3.1.1伦理性45 (1)偏见46 (2)毒性47 3.1.2事实性48 3.1.3隐私性49 3.1.4鲁棒性50 3.2伦理性评估53 3.2.1偏见评估53 (1)偏见评估指标53 1)基于嵌入的偏见评估指标54 2)基于概率的偏见评估指标55 3)基于大语言模型的偏见评估指标56 (2)偏见评估数据集56 3.2.2毒性评估57 (1)毒性评估模型57 (2)毒性评估数据集60 3.3事实性评估62 3.3.1事实性评估指标62 (1)基于规则的评估指标63 (2)基于机器学习模型的评估指标65 (3)基于LLM的评估指标66 (4)人类评估指标67 3.3.2事实性评估数据集68 3.4隐私性评估71 3.4.1隐私泄露71 (1)敏感查询71 (2)上下文泄漏72 (3)个人偏好泄露72 3.4.2隐私攻击73 (1)成员推断攻击73 (2)模型反演/数据重建攻击76 (3)属性推断攻击76 (4)模型提取/窃取攻击78 3.5鲁棒性评估78 3.5.1对抗鲁棒性评估基准79 (1)对抗样本攻击79 (2)后门攻击80 (3)Prompt注入攻击81 (4)数据投毒83 3.5.2分布外(OOD)鲁棒性评估基准83 3.5.3大模型越狱攻击风险评估84 (1)越狱攻击分类85 (2)EasyJailbreak越狱攻击框架86 四、大模型安全评估实践案例分析87 4.1大语言模型安全性评估87 4.1.1HolisticEvaluationofLanguageModels87 4.1.2TrustworthyLLMs89 4.1.3DecodingTrust92 4.1.4SuperCLUE-Safety93 4.1.5支小宝安全实践94 4.1.6大模型系统安全评估实践 4.2文生图大模型安全性评估 4.2.1HolisticEvaluationofText-to-ImageModels 4.2.2UnsafeDiffusion 4.2.3HarmAmplificationinText-to-ImageModels 4.3多模态大模型安全性评估 4.3.1T2VSafetyBench 4.3.2MLLMGUARD 五、大模型安全评估的展望 5.1面向安全的大模型自主演进 5.2大模型评估的衍生安全风险 参考文献 96 98 98 100 101 102 102 103 105 105 105 107 生成式大模型安全评估 01 GenerativeLargeModelSecurityAssessment 生成式大模型发展现状 生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brownetal.,2020)。生成式大模型不同于判别式模型直接对输入数据进行分类或预测,其能够通过学习数据的概率分布来生成新的数据,如文本、图像、音频等;同时,较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此,生成式大模型通过在大型数据集上进行预训练学习,并在下游任务上进行微调的方式,在自然语言处理和计算机视觉等领域的复杂任务上表现出较高的性能和较强的泛化能力。 2022年11月30日,OpenAI开放测试AI驱动的聊天机器人ChatGPT,它是OpenAI基于GPT-3.5等前几代生成式预训练模型(GPT)架构,在增加参数量和数据量后训练得到的生成式对话系统。ChatGPT能够与用户进行自然而流畅的对话,并根据用户输入的对话内容提供有意义的回复。因为参数规模增加,ChatGPT的能力得到了飞跃式提升,其能够处理复杂的对话场景,理解上下文信息,并生成连贯、有逻辑的回复,同时支持多语言对话,并且可以根据用户输入的对话内容进行个性化回复。ChatGPT的推出标志着自然语言处理技术的一个重要里程碑,它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM2模型,展示了在多语言理解和生成方面的突破。同年末,Meta发布了LLaMA2模型,旨在提供更高效的多任务处理能力。OpenAI也在2023年发布了更为先进的GPT-4模型,进一步提升了对话和生成能力。在2023年,各大公司纷纷推出自研大模型,推动生成式AI在各类应用中广泛部署。其中,Anthropic推出以安全性为主打的大语言模型Claude,旨在提供更加可靠和安全的生成式AI解决方案;MidJourney发布第五代文生图模型,其对人类手部细节特征的描绘达到了前所未有的精度;Microsoft则推出了由GPT支持的Copilot,宣称是“地球上最强大的生产力工具”,通过集成GPT技术大幅提升办公和开发效率。到2024年,大模型技 术进一步取得了显著进展。各大公司在已有基座模型的基础上持续扩展规模,迭代更新版本。同时,最新的研究重点逐步转向多模态大模型的开发,以及基于强化学习与人类反馈和偏好对齐等相关前沿技术的应用,旨在进一步提升大模型的泛化能力和多领域应用能力,也进一步增 —01— 生成式大模型安全评估 GenerativeLargeModelSecurityAssessment 强了大模型在生产生活中的实际应用价值。本白皮书将首先介绍国内外生成式大模型的发展历程,及其在人类生产生活中的应用。 1.1 生成式大语言模型 生成式大语言模型以GPT系列和通义千问、文心一言等国产模型为代表,通过自然语言处理与深度学习技术,实现了从文本生成到复杂对话的全方位应用。这些模型广泛应用于翻译、写作辅助、知识问答等领域,不仅推动了语言智能技术的发展,也加速了其在商业和科研中的实践落地。 1.1.1OpenAIGPT系列 从GPT-1到GPT-4o,再到后来的o1和o3,OpenAI的语言模型经历了显著的发展和演变。GPT-1引入了基于Transformer的生成预训练方法,通过大规模无监督学习和微调提高了特定任务的表现。GPT-2通过扩大模型规模和数据集,进一步强化了模型的多任务能力,尤其在 —02— 生成式大模型安全评估 GenerativeLargeModelSecurityAssessment 无监督学习中展现出优异的零样本学习能力。GPT-3和GPT-3.5则侧重于通过极大的模型规模和数据量提升泛化能力和任务适应性,引入了上下文学习和元学习技术,减少了对微调的依赖。InstructGPT模型则是GPT-3的变体,专注于根据人类反馈进行指令驱动的任务优化。GPT-4在多模态技术上取得突破,不仅在文本生成上性能更强,还新增了图像处理能力,同时通过改进对抗训练和优化生成策略,在安全性与可靠性方面大幅提升。基于GPT-4的GPT-4o则通过进一步优化算法和训练技巧,在专业领域表现更为卓越,尤其是在逻辑推理、复杂任务处理和响应速度方面均有显著改进。2024后半年发布的o1和o3将思维链技术引入模型训练,使其在复杂任务中展现出接近人类的推理能力。GPT系列生成式大语言模型的发展不仅推动了自然语言处理技术的前沿发展,也为实际应用提供了更强大、更灵活的工具。 GPT-1:2017年,Google提出了Transformer架构(Vaswanietal.,2017),利用Atten-tio