行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

大模型安全研究报告（2024年）

信息技术2024-09-29阿里巴巴C***

AI智能总结

大模型安全研究报告

一、大模型安全概述

大模型技术演进
- 探索期（2017-2021年）：谷歌提出基于自注意力机制的Transformer，奠定了大模型发展的基础。预训练语言模型在多任务领域展现出强大的潜力，全球致力于提升模型性能。
- 爆发期（2022-2023年）：ChatGPT引爆大模型技术竞赛，各大公司推出多款语言大模型，如PaLM、LLaMA、Claude等，大模型具备了自然语言处理能力。
- 提升期（2024年至今）：Sora和GPT-4o等多模态大模型推动研发热潮，多模态大模型在理解和生成不同感知通道的信息方面表现出色。
大模型面临严峻安全挑战
- 训练数据安全风险：训练数据违规获取、含有违法不良信息、投毒、质量低下、缺乏多样性。
- 算法模型安全风险：模型鲁棒性不足、模型“幻觉”、模型偏见、模型可解释性差。
- 系统平台安全风险：机器学习框架安全隐患、开发工具链安全风险、系统逻辑缺陷风险、插件相关安全风险。
- 业务应用安全风险：生成违法不良信息、数据泄露问题、用户恶意使用风险。
大模型带来新安全机遇
- 网络安全：提升威胁识别、防御响应、检测准确性和恢复效率。
- 数据安全：提升数据分类分级和自学习能力，降低对人工分析的依赖。
- 内容安全：提高鲁棒性和准确性，应对新型攻击方式。

二、大模型自身安全

大模型自身安全框架
- 安全目标：确保训练数据安全可信、算法模型安全可靠、系统平台安全稳定、业务应用安全可控。
- 安全属性：真实性、多样性、准确性、机密性、可问责性、可预测性、公平性、透明性、合规性、可靠性、可控性、鲁棒性。
- 保护对象：系统、数据、用户、行为。
- 安全措施：
  - 训练数据安全措施：数据合规获取、数据标注安全、数据集安全检测、数据增广与数据合成、安全对齐数据集构建。
  - 算法模型安全措施：模型内生安全评测、模型鲁棒性增强、模型“幻觉”缓解、模型偏见缓解、模型可解释性提升。
  - 系统平台安全措施：系统安全加固保护、大模型插件安全保护。
  - 业务应用安全措施：输入输出安全保护、生成信息标识、账号恶意行为风控、用户协议和隐私政策。
具体安全措施
- 训练数据安全措施：
  - 数据合规获取：遵循法律法规，保护数据来源，明确数据收集目的和使用方式。
  - 数据标注安全：制定清晰的标注任务，管理标注人员，确保标注过程的安全。
- 算法模型安全措施：
  - 模型内生安全评测：评估模型的安全性，减少潜在风险。
  - 模型鲁棒性增强：提高模型对异常输入的容忍度。
  - 模型“幻觉”缓解：改进模型生成的合理性。
  - 模型偏见缓解：减少模型的偏见和歧视。
  - 模型可解释性提升：提高模型的透明度，便于用户理解。
- 系统平台安全措施：
  - 系统安全加固保护：加强系统防护，防止安全漏洞被利用。
  - 大模型插件安全保护：确保插件的安全性，防止恶意攻击。
- 业务应用安全措施：
  - 输入输出安全保护：保护数据输入和输出的安全性。
  - 生成信息标识：标识生成信息的来源和用途。
  - 账号恶意行为风控：监控和预防恶意账号行为。
  - 用户协议和隐私政策：明确用户权益和隐私保护条款。

通过上述框架和措施，旨在有效防范和消减大模型的安全风险，促进其在安全领域的应用和发展。

版权声明LEGAL NOTICE 阿里云计算有限公司与中国信息通信研究院共同拥有本报告的版权，并依法享有版权保护。任何个人或机构在转载、摘录或以其他形式使用本报告的文字内容及观点时，必须明确标注“资料来源：阿里云计算有限公司与中国信息通信研究院”。对于任何未经授权的转载或使用行为，我们将依法追究其法律责任。前言FORWORD 为有效防范和消减大模型的安全风险，并促进其在安全领域的应用，阿里云计算有限公司联合中国信息通信研究院等三十余家行业单位共同编制《大模型安全研究报告（2024 年）》。本报告凝聚业界专家共识，聚焦当前大模型突出安全风险和网络空间安全瓶颈问题，从大模型自身安全和大模型赋能安全两个维度，提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架，以及大模型赋能安全框架。期待这些框架能为社会各方提供有益参考，共同推动大模型技术产业的健康发展。当前，由 ChatGPT 引发的全球大模型技术竞赛正推动人工智能由专用弱智能向通用强智能迈进，这不仅标志着智能水平的显著提升，也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用，为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而，随着大模型商业化应用和产业化落地加速，大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险，也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战，国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式，积极开展大模型安全治理。同时，大模型在逻辑推理、任务编排等方面的卓越能力，为解决网络空间安全瓶颈问题带来了新的机遇。目录目录大模型安全概述大模型自身安全 3.3 模型“幻觉”缓解293.4 模型偏见缓解313.5 模型可解释性提升31 1.1 安全目标221.2 安全属性221.3 保护对象231.4 安全措施24 1.1 探索期：预训练语言模型（2017 年 -2021 年）12 4.1 系统安全加固保护324.2 大模型插件安全保护33 2.大模型面临严峻安全挑战13 2.1 数据合规获取252.2 数据标注安全252.3 数据集安全检测262.4数据增广与数据合成272.5 安全对齐数据集构建27 2.1 训练数据安全风险132.2 算法模型安全风险142.3 系统平台安全风险152.4 业务应用安全风险15 5.1 输入输出安全保护345.2 生成信息标识355.3 账号恶意行为风控365.4 用户协议和隐私政策37 3. 大模型带来新安全机遇16 3. 算法模型安全保护措施28 3.1 模型内生安全评测283.2 模型鲁棒性增强29 4.大模型安全研究范围17 大模型赋能安全大模型安全展望 1. 大模型技术产业展望56 2. 大模型自身安全展望56 2.1 风险识别(Identify)422.2 安全防御(Protect)442.3 安全检测(Detect)452.4 安全响应(Response)472.5 安全恢复(Recovery)482.6 其他49 3. 大模型赋能安全展望57 编制说明 3. 大模型赋能数据安全50 3.1 自动化数据分类分级503.2 自动化 APP（SDK）违规处理个人信息检测51 4. 大模型赋能内容安全52 4.1 智能文本内容安全检测52 大模型安全概述 1.大模型技术演进2.大模型面临严峻安全挑战3.大模型带来新安全机遇4.大模型安全研究范围华为云的 MindSpore 等多模态大模型快速涌现，进一步推动了这一领域发展。区别于语言大模型，多模态大模型能同时处理来自语言、图像、声音等不同感知通道的信息，极大提高了场景理解准确度，促使大模型初步拥有了类似人类的感知和理解物理世界的能力。 1. 大模型技术演进 2012 年，杰弗里·辛顿（Geoffrey Hinton）课题组提出的卷积深度神经网络 AlexNet 在计算机视觉权威比赛ImageNet 中以压倒性优势获得第一名，拉开了全球深度神经网络研究浪潮。2020 年，OpenAI 推出了 GPT-3，标志着以“标注数据监督学习”和服务特定任务为特点的小规模深度神经网络（即小模型），正式向以“大规模数据集无监督预训练 + 有监督微调”和服务多任务的大规模预训练深度神经网络（即大模型）转变。大模型以其庞大的无标注训练数据、巨大的模型参数、智能“涌现”现象和多任务处理能力，被业界认为是实现通用智能的可行路径。整体看，从小模型向大模型的演进经历了如下三个时期。此外，得益于大模型强大的泛化、自适应和持续学习能力，研究人员在语言、多模态等基础大模型之上，通过使用行业专有数据进行微调，形成适用于金融、医疗、交通等特定行业和任务场景的定制化大模型。基础大模型的智能和安全水平，是影响面向特定行业和任务场景的定制化大模型性能表现的关键因素。 2.大模型面临严峻安全挑战 1.1 探索期：预训练语言模型（2017 年 -2021 年）随着各类大模型与经济社会的深度融合，其技术局限和潜在恶意使用不仅威胁大模型系统自身的安全稳定运行，也可能为使用大模型的各行各业带来非预期安全影响。 2017 年，谷歌提出了基于自注意力机制的深度神经网络结构——Transformer，奠定了此后大模型发展的算法架构基础。2018 年，基于 Transformer 的 GPT-1 和 BERT 的成功应用，标志着预训练模型成为自然语言处理领域的主流。2020 年，OpenAI 推出了模型参数规模高达 1750 亿的 GPT-3，因其在多类语言任务上的性能大幅提升获得了广泛关注和认可。这个阶段，预训练语言模型在多任务领域内生成语义连贯的类人文本方面展现出了极强潜力，全球为不断提高大模型性能不遗余力扩大模型的参数规模。为尽可能全面应对大模型领域的基础共性安全挑战，本报告优先对语言、多模态等各类基础大模型系统的安全风险进行系统梳理。与此同时，参考 ISO/IEC 5338-2023 《人工智能系统生命周期过程》国际标准，将基础大模型系统抽象为训练数据、算法模型、系统平台和业务应用四个重要组成部分，并通过描绘这四个组成部分面临的重要和一般安全风险，形成大模型安全风险地图，如图 1 所示。其中，重要风险是发生概率高和影响程度大的风险，一般风险则反之。 1.2 爆发期：语言大模型（2022 年 -2023 年） 2022 年末，OpenAI 发布的 ChatGPT 引爆了全球大模型技术竞赛。此后，谷歌的 PaLM、Meta 的 LLaMA、Anthropic 的 Claude、阿联酋技术创新研究所的 Falcon 和 NOOR、阿里云的通义千问、百度的文心一言等语言大模型争相发布，全球呈现“千模大战”态势。这个阶段，大模型拥有了对自然语言的理解、生成、记忆和推理能力，实现了与人类的顺畅交流。与此同时，全球开始对大模型的经济性和安全性给予更多关注，研究焦点正从单纯扩大模型参数规模和提升模型智能水平，转向追求模型参数效率和确保模型与人类价值观的一致性。 2.1 训练数据安全风险在训练数据部分可能存在训练数据泄露等一般风险，其重点风险包括：（1）训练数据违规获取：通过不正当手段或未经授权的方式获取训练数据，可能违反法律法规、数据质量受损和发生安全事故。（2）训练数据含有违法不良信息：训练数据中可能包含违法不良、涉及商业机密或个人隐私等信息。 1.3 提升期：多模态大模型（2024- 至今）（3）训练数据投毒：攻击者可能在训练数据中植入恶意样本或对数据进行恶意修改，影响模型的准确性和安全性。 2024 年，OpenAI 发布的 Sora 和 GPT-4o 凭借强大的视频语义理解和高质量的文生视频能力震惊全球，开启了全球多模态大模型研发和应用热潮。谷歌的 Gemini Ultra、阿里云的 Qwen-VL Max、百度的 Ernie-ViLG 3.0、（4）训练数据质量低下：训练数据集中可能存在错误或噪声数据，影响模型训练的效果。型可能无法准确识别，影响输出的准确性。（5）训练数据缺乏多样性：数据来源、特征和分布可能过于单一，不能全面覆盖各种实际应用场景。（2）模型“幻觉”现象：模型在回答用户问题时，可能产生看似合理但包含不准确、虚构或违背事实的信息，这种现象被称为模型“幻觉”。（3）模型偏见和歧视：模型在处理数据时可能表现出某种偏好或倾向，这可能导致不公平的判断或生成带有歧视性的信息。（4）模型可解释性差：模型的决策过程和结果难以被详细准确地解释，使得用户难以理解模型输入如何影响输出，以及模型产生特定结果的原因。 2.3 系统平台安全风险在系统平台部分可能遭受非授权访问和非授权使用等一般风险，其重点风险包括：（1）机器学习框架安全隐患：流行的机器学习框架（如 TensorFlow、Caffe、Torch）可能存在漏洞，攻击者可能利用这些漏洞发起攻击，造成系统受损、数据泄露或服务中断。（2）开发工具链安全风险：大模型系统开发过程中使用的工具链（如 Langchain、Llama-Index、pandas-ai）可能存在安全漏洞，例如 SQL 注入、代码执行或命令注入等，攻击者利用这些漏洞可能导致数据损坏、信息泄露或服务中断。（3）系统逻辑缺陷风险：大模型系统可能存在数据权限和隔离、访问控制、业务逻辑等方面的缺陷，这些缺陷可能使得系统容易受到未授权访问、API 滥用、数据窃取或滥用、越权访问等攻击，进而可能导致法律纠纷和监管处罚。（4）插件相关安全风险：大模型的插件可能存在缺陷，在与大模型服务交互时可能引发敏感信息泄露、提示词注入、跨插件请求伪造等安全问题，这可能导致系统遭受攻击、数据泄露或服务中断。 2.4 业务应用安全风险 2.2 算法模型安全风险在业务应用部分可能存在测试验证数据更新不及时等一般风险。其重点风险包括：在算法模型部分可能存在测试验证不充分等一般风险，其重点风险包括：（1）生成违法不良信息：大模型可能产生包含对国家安全、公共安全、伦理道德和行业规范构成威胁的内容。（2）数据泄露问题：存在攻击者通过逆向工程、成员推理攻击或提示词注入等手段窃取训练数据的风险，这些数据可能包含敏感的个人信息或商业机密，可能导致隐私泄露、知识产权侵权和经济损失。此外，用户在与大模型互动时，也可能由于疏忽或不熟悉相关风险，无意中泄露自己的隐私或保密信息。（1）模型鲁棒性不足：主要体现在分布外鲁棒性不足和对抗鲁棒性不足两个方面。分布外鲁棒性不足主要指模型在遭遇实际运行环境中的小概率异常场景时，未能展现出预期的泛化能力，从而生成非预期的结果。而对抗鲁棒性不足则主要指模型面对攻击者利用精心设计的提示词或通过添加细微干扰来构造对抗样本输入时，模（3）用户恶意使用风险：在大模型应用中，存在一些用户或实体不遵守道德规范和法律法规，使用模型进行恶意活动的风险。 4.大模型安全研究范围总体来说，大模型在人工智能的发展中引入了模型“幻觉”、提示注入攻击、大模型插件缺陷等新风险，并加剧了数据泄露、模型偏见、系统缺陷等传统人工智能技术已有风险。大模型安全由大模型自身安全及大模型赋能安全两个核心要素构成。前者包含大模型安全目标、安全属性，保护对象及安全措施四个方面，后者则为发挥大模型对网络空间安全的赋能作用提供技术方向指引。 3. 大模型带来新安全机遇当前网络空间安全面临攻击隐蔽难发现、数据泄露风险高和违法信息审核难等挑战。大模型展现出强大的信息理解、知识抽取、意图和任务编排等能力，为网络空间安全瓶颈问题提供了新的解决思路和方法。与此同时，大模型发展也催生了恶意软件自动生成、深度伪造等新型攻击方式，已有安全措施无法有效检测和防御，亟待利用大模

点击免费查看完整报告

大模型安全研究报告（2024年）

大模型安全研究报告

一、大模型安全概述

二、大模型自身安全

你可能感兴趣

大模型组件漏洞与应用威胁安全研究报告2025年

大模型组件漏洞与应用威胁安全研究报告

大模型安全与伦理研究报告2024

2024安全大模型技术与市场研究报告

中国安全大模型技术与应用研究报告（2023）