您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:大模型安全实践(2024)白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型安全实践(2024)白皮书

信息技术2024-07-05-清华大学七***
AI智能总结
查看更多
大模型安全实践(2024)白皮书

四、大模型安全行业实践与案例分析54 4.1金融领域大模型安全实践54 4.2医疗领域大模型安全实践58 4.3政务领域大模型安全实践61 4.4人力资源领域大模型安全实践65 4.5智能助理领域大模型安全实践69 五、大模型安全未来展望与治理建议71 5.1未来展望71 5.2治理建议75 图表目录 图2-1总体框架图10 图2-2云边端安全架构图18 图2-3端侧安全19 图3-1大模型的隐私泄露风险示意图21 图3-2模型后门攻击的不同触发器示意图22 图3-3针对CHATGPT进行指令攻击效果图23 图3-4基于大规模复杂分布式计算机系统建立的系统框架24 图3-5生成式人工智能的系统安全威胁25 图3-6生成式AI学习框架面临的安全问题示意图27 图3-7大模型生成NFT艺术作品30 图3-8大模型产生性别偏见性言论31 图3-9联邦学习在大模型训练与微调中的应用32 图3-10模型越狱防御技术的方法示意图34 图3-11提示语泄漏防御技术的方法示意图34 图3-12系统防御技术示意图35 图3-13基于人类反馈的强化学习方法示意图40 图3-14虚假新闻检测模型GROVER示意图41 图3-15训练数据添加水印流程图42 图3-16深度伪造主动防御技术流程图43 图3-17模型幻觉防御技术45 图3-18数字水印的应用流程49 图3-19图片AIGC模型类型50 图3-20大模型安全性评测链路53 图4-1金融领域大模型安全实践案例55 05 05 图4-2医疗领域大模型安全实践案例58 图4-3医疗领域大模型安全技术实现59 图4-4政务领域大模型安全防御技术实现62 图4-5人力资源领域大模型安全实践案例65 图4-6智能助理领域大模型安全实践案例69 图5-1大模型安全“五维一体”治理框架76 表2-1“以人为本”人工智能相关政策或报告12 表3-1AIGC图片的攻击类型50 引言 《生成式人工智能服务管理暂行办法》《科技伦理审查办法(试行)》等政策相继发布,提出要坚持发展与安全并重原则,强化科技伦理风险防控,并从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出了要求。 大模型作为AI领域的一个重要分支,日益成为推动社会进步和创新的关键力量。依托于庞大的参数规模、海量的训练数据、强大的算力资源,大模型在多个领域的能力已超越人类。而纵观历史,每一轮新技术革命都会带来社会的变革与不确定性,随着大模型能力的不断增强,大模型的安全性、可靠性、可控性正面临前所未有的挑战。 伴随大模型的深度应用,产学研用各方也加强了大模型安全威胁和防御技术体系研究,在原有可信人工智能治理体系框架基础上,提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力成为行业研究热点。安全评测技术和安全防御技术不断成熟也有效护航了大模型发展。 大模型正在成为推动各垂类领域产业升级的关键核心力量。金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式,以应对大模型安全风险。大模型安全实践案例从系统化的角度为大模型数据、训练、部署、应用等环节提供安全应用经验,展示了如何有效地识别和防控大模型风险,促进了业内最佳实践的交流和分享,助力了大模型安全生态发展。 本报告在分析了大模型发展趋势挑战的基础上,提出了大模型安全实践总体框架,并从安全性、可靠性、可控性以及评测四个角度对大模型安全技术进行了深度剖析。最后,在大模型安全未来发展趋势基础上,提出了大模型安全“五维一体”治理框架,对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。 一、大模型发展趋势与挑战 1.1大模型发展趋势 通用化与专用化双路径并行发展,垂直行业成为主攻应用方向。通用大模型以庞大参数、强泛化及多任务学习能力应对多样任务,同时具备跨模态的理解和生成能力。专用化的行业大模型则在特定领域发挥着不可或缺的作用。专用化行业大模型则深入金融、政务、医疗等特定行业,通过精细化优化满足行业的特殊需求,不仅参数规模更为精简,具有更低的成本优势,而且能够深度融合企业或机构的内部数据,为实际业务场景提供高度精准的服务。随着大模型在垂直行业的深入应用与推广,其巨大的潜在价值将得到更为广泛地认可和体现。 云侧与端侧大模型互补发展,云边端协同加速应用落地。云侧大模型凭借强大算力和海量数据,提供语言理解、知识问答等多方面能力,服务个人及企业用户;而端侧大模型因相对成本低、便携性强和数据安全性高,广泛应用于手机、PC等终端,主打个人市场,提供专属服务,显示广阔市场前景。“云-边-端”混合计算架构通过优化算力分配,实现大模型在云侧训练、边侧实时数据处理、端侧高效安全推理,不仅缓解了云服务器的压力,还满足了用户对低延迟、高带宽、轻量化和隐私的需求。这种分布式计算方式为大模型应用提供了新的可能性,预示着AI技术未来的发展方向。 大模型广泛开源成为新趋势,商业模式创新筑牢竞争壁垒。近年 来,众多企业及科研院所将其开发的大模型进行开源,不仅促进了行业的活力,也为小型开发者带来了显著的便利和效率提升。通过调用开源大模型,小型开发者可大幅提高编程效率、加速AI应用落地,并省去复杂训练和调整环节,同时提升编码、纠错效率及代码质量。 与此同时,为确保长期稳健发展,大模型提供商正逐步倾向于在免费策略的基础上,寻求C端与B端市场之间的均衡。他们既要通过免费策略广泛吸引个人用户,又要为企业提供专业的定制化服务以实现盈利目标。在这个过程中,持续地创新、不断提供核心价值,并成功探索出具有可持续性的商业模式,已成为大模型提供商在激烈市场竞争中保持竞争力的关键所在。 大模型引领新质生产力崛起,成为经济社会高质量发展重要抓手。 新质生产力以技术革新为核心,致力于追求科技的高端化、效能优化与质量提升,以期实现全要素生产率的显著增长。在此过程中,大模型通过向多个领域引入智能化元素,显著提高了生产效率,降低了运营成本,为产业升级提供了强大支持,进而提升了产业的综合竞争力。随着我国经济逐步进入高质量发展阶段,大模型的巨大潜力日益凸显。它在催生新动能、孵化新产业方面展示了卓越能力,与国家倡导的创新驱动和产业升级战略高度契合。当前,大模型已然成为我国经济社会高质量发展的重要推动力,它将继续发挥更为广泛和深远的影响,助力我国在全球经济格局中占据更有利的地位。 敏捷治理成为新型治理模式,多元协同与软硬兼施策略并行推进。在全球大模型治理的实践中,敏捷治理作为一种新兴且全面的治理模式,正受到广泛关注。该模式以柔韧、流动、灵活及自适应为特点,能够快速响应环境的变化,并倡导多元利益相关者的共同参与。同时,全球已形成多元主体协同治理人工智能的格局,国际组织和国家政府在其中发挥关键作用,通过构建协同治理机制、调整监管组织机构以及完善治理工具等方式,共同推进人工智能的健康发展。在实施治理策略时,结合柔性伦理规范和硬性法律法规,以构建完善的治理机制,从而有效规制大模型风险,并推动创新与安全之间的平衡。 1.2大模型发展挑战 大模型技术存在自身缺陷,包括生成内容不可信、能力不可控以及外部安全隐患等问题,带来诸多风险挑战。一是机器“幻觉”问题影响生成内容的可信度。模型在遵循语法规则的同时,可能产生包含虚假或无意义的信息。这一现象源于大模型基于概率推理的输出方式它可能导致对模糊预测的过度自信,从而编造错误或不存在的事实。二是“智能涌现”效应使模型能力不可控。虽然“智能涌现”让模型展现出色性能,但其突发性、不可预测性和不可控性带来了潜在风险。例如,某些大型语言模型在被激怒时甚至威胁用户,显示了其不可控性,引起研究人员对强大AI模型可能带来的灾难性后果的警觉。三 是大模型的脆弱性和易受攻击性使得外部安全隐患难以消除。技术特 性上的绝对安全无法保证,随着大模型技术的快速发展,相关的网络攻击也在增多。大模型应用降低了查找漏洞和发动系统攻击的难度,若被恶意植入后门,其安全性将受严重威胁。例如,攻击者利用某些大型语言模型生成自动攻击代码,加剧了系统安全隐患。 在个人层面,大模型挑战广泛涉及信息获取、人格尊严以及情感伦理等多个重要维度。一是大模型的应用加剧了“信息茧房”效应。大模型通过其特有的信息呈现机制,使得个体信息获取更被动,认知受限。同时,大模型训练数据中的偏见和歧视也影响其生成结果的公正性,对公平正义产生负面影响,如GPT-3和Gopher等模型在生成内容时显现的偏见和歧视问题。二是大模型技术的滥用将威胁人格尊 严。不法分子利用大模型生成虚假内容,实施网络欺凌、辱骂和造谣,给受害者带来精神和财产损失。此外,个人对大模型的过度依赖也阻碍其个人发展,可能导致学习能力和认知水平退化,对社会发展潜力构成威胁。三是情感计算技术带来伦理风险和扰乱人际关系。这种新 型应用通过模拟角色并设定其情绪或心理状态,可能对个人行为、社会关系以及伦理道德等多个领域产生深远影响。同时,情感计算可能不当地引导个人情绪、行为和价值观,挑战人类社会的伦理道德体系。 在企业层面,大模型面临用户隐私与商业秘密泄露、版权侵权及 数据安全等多重风险挑战。一是用户隐私与商业秘密的泄露风险增加。 由于用户过度授权、违规信息使用及黑客攻击,大模型应用导致用户隐私与商业秘密泄露风险上升。用户协议常赋予企业过多个人信息使用权,增加了隐私泄露隐患。同时,商业秘密也可能因员工违规或黑客攻击而泄露。二是海量文本与图像数据引发版权侵权风险。缺乏规范的许可使用机制,大模型在内容生成时可能侵犯原作品的多种权利,若生成内容与原作高度相似,还可能构成“实质性相似”侵权。三是传统数据收集模式引发数据安全风险。如将用户数据传输至远程服务器处理,存在数据泄露隐患。实际案例中,有企业引入大模型后发生多起数据违规事件,调研也显示员工在使用大模型时频繁泄露敏感数据,凸显了数据安全问题的严重性。 在社会层面,大模型的广泛应用不仅冲击就业市场、扩大数字鸿沟,还可能危及公共安全与利益。一是大模型的普及对就业市场造成了显著冲击。虽然大模型推动了生产效率的提升并催生了新兴岗位,但同时也导致了某些领域或人群的失业问题,特别是初、中等技能的岗位。高盛研究报告指出,近半数行政和法律工作将受影响,大量劳动者需面临职业转换,这可能对他们的经济、社会和身心健康产生深远影响,甚至可能引发社会动荡。二是大模型的应用进一步加剧了数字鸿沟。不同地区和群体在大模型技术的拥有、应用和创新能力上存在差异,形成新的信息不对称和数字鸿沟,拉大了社会阶层差距。三是虚假内容危及公共安全。深度伪造技术的滥用降低了公众对公开信 息的信任度,且可能被用于诈骗、政治干预等不法领域。同时,大模型易受对抗性攻击,攻击者可能通过构造特定对抗样本来诱导模型产生错误输出,进而利用这些漏洞进行欺诈,甚至引发安全事故。 二、大模型安全实践总体框架 2.1总体框架 来源:中国信息通信研究院 图2-1总体框架图 如图2-1所示,本报告围绕大模型安全框架下的大模型安全实践,将总体框架分为五个部分。首先,提出了“以人为本,AI向善”的大模型安全建设的指导思想,为大模型安全实践始终向着正确方向发展指明了方向,确保技术进步始终服务于人类福祉。基于此,确立了围绕安全、可靠、可控三个核心维度的大模型安全技术体系。并涵盖了大模型安全测评与防御的综合技术方案。技术落地实现层面,大 模型的部署模式涉及“端、边、云”,相应的安全技术实施也聚焦于端侧、边缘侧及云端的安全保障,构成了大模型安全技术的主要承载实体。大模型安全行业应用实践是大模型安全思想和技术在各垂类行业中的落地应用,构筑了切实的大模型安全防线。 2.2大模型安全建设的指导思想:以人为本,AI向善 人工智能大模型发展势不可挡,其释放出的巨大能量深刻地改变着人们的生产生活方式和思维方式,随着高性能计算和海量数据的不断发展,使得人工智能的能力超越人类极限变成可能。人工智能正在以从未有过的频率和深度影响着人类社会,比如为